Codage des caractéristiques catégorielles
Il arrive qu'un ensemble de données contienne des valeurs numériques représentant une caractéristique catégorielle.
Dans l'ensemble de données donors
, wealth_rating
utilise des chiffres pour indiquer le niveau de richesse du donateur :
- 0 = Inconnu
- 1 = Faible
- 2 = Medium
- Élevée
Cet exercice illustre comment préparer ce type de caractéristique catégorielle et examine son impact sur un modèle de régression logistique. La base de données donors
est à votre disposition.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
- Créez un facteur
wealth_levels
à partir des données numériqueswealth_rating
avec des étiquettes, comme indiqué, en transmettant à la fonctionfactor()
la colonne que vous souhaitez convertir, les niveaux individuels et les étiquettes. - Utilisez
relevel()
pour changer la catégorie de référence enMedium
. Le premier argument doit être votre nouvelle colonnefactor
. - Construisez un modèle de régression logistique utilisant la colonne
wealth_levels
pour prédiredonated
et affichez le résultat avecsummary()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)