Codage des caractéristiques catégorielles
Il arrive qu'un ensemble de données contienne des valeurs numériques représentant une caractéristique catégorielle.
Dans l'ensemble de données donors, wealth_rating utilise des chiffres pour indiquer le niveau de richesse du donateur :
- 0 = Inconnu
- 1 = Faible
- 2 = Medium
- Élevée
Cet exercice illustre comment préparer ce type de caractéristique catégorielle et examine son impact sur un modèle de régression logistique. La base de données donors est à votre disposition.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
- Créez un facteur
wealth_levelsà partir des données numériqueswealth_ratingavec des étiquettes, comme indiqué, en transmettant à la fonctionfactor()la colonne que vous souhaitez convertir, les niveaux individuels et les étiquettes. - Utilisez
relevel()pour changer la catégorie de référence enMedium. Le premier argument doit être votre nouvelle colonnefactor. - Construisez un modèle de régression logistique utilisant la colonne
wealth_levelspour prédiredonatedet affichez le résultat avecsummary().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)