Imputer les valeurs manquantes et créer des variables indicatrices
Après avoir détecté des valeurs manquantes dans le jeu de données attrition et déterminé qu’elles sont manquantes complètement au hasard (MCAR), vous décidez d’utiliser l’imputation par K plus proches voisins (KNN). Lors de la configuration de votre recipe de feature engineering, vous choisissez de créer des variables indicatrices pour toutes vos variables nominales et de mettre à jour le rôle de la variable ...1 en « ID » afin de la conserver dans le jeu de données à des fins de référence, sans affecter votre modèle.
Cet exercice fait partie du cours
Feature engineering en R
Instructions
- Mettez à jour le rôle de
...1en « ID ». - Imputez des valeurs à tous les prédicteurs là où des données sont manquantes.
- Créez des variables indicatrices pour tous les prédicteurs nominaux.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
lr_model <- logistic_reg()
lr_recipe <-
recipe(Attrition ~., data = train) %>%
# Update the role of "...1" to "ID"
___(...1, new_role = "ID" ) %>%
# Impute values to all predictors where data are missing
step_impute_knn(___) %>%
# Create dummy variables for all nominal predictors
___(all_nominal_predictors())
lr_recipe