CommencerCommencer gratuitement

Codage des caractéristiques catégorielles

Il arrive qu'un ensemble de données contienne des valeurs numériques représentant une caractéristique catégorielle.

Dans l'ensemble de données donors, wealth_rating utilise des chiffres pour indiquer le niveau de richesse du donateur :

  • 0 = Inconnu
  • 1 = Faible
  • 2 = Medium
  • Élevée

Cet exercice illustre comment préparer ce type de caractéristique catégorielle et examine son impact sur un modèle de régression logistique. La base de données donors est à votre disposition.

Cet exercice fait partie du cours

Apprentissage supervisé en R : Classification

Afficher le cours

Instructions

  • Créez un facteur wealth_levels à partir des données numériques wealth_rating avec des étiquettes, comme indiqué, en transmettant à la fonction factor() la colonne que vous souhaitez convertir, les niveaux individuels et les étiquettes.
  • Utilisez relevel() pour changer la catégorie de référence en Medium. Le premier argument doit être votre nouvelle colonne factor.
  • Construisez un modèle de régression logistique utilisant la colonne wealth_levels pour prédire donated et affichez le résultat avec summary().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)

# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)

# See how our factor coding impacts the model
summary(___)
Modifier et exécuter le code