CommencerCommencez gratuitement

Imputer les valeurs manquantes et créer des variables indicatrices

Après avoir détecté des valeurs manquantes dans le jeu de données attrition et déterminé qu’elles sont manquantes complètement au hasard (MCAR), vous décidez d’utiliser l’imputation par K plus proches voisins (KNN). Lors de la configuration de votre recipe de feature engineering, vous choisissez de créer des variables indicatrices pour toutes vos variables nominales et de mettre à jour le rôle de la variable ...1 en « ID » afin de la conserver dans le jeu de données à des fins de référence, sans affecter votre modèle.

Cet exercice fait partie du cours

<cours>Feature engineering en R</cours>
Voir le cours

Instructions de l’exercice

  • Mettez à jour le rôle de ...1 en « ID ».
  • Imputez des valeurs à tous les prédicteurs là où des données sont manquantes.
  • Créez des variables indicatrices pour tous les prédicteurs nominaux.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Attrition ~., data = train) %>%

# Update the role of "...1" to "ID"
  ___(...1, new_role = "ID" ) %>%

# Impute values to all predictors where data are missing
  step_impute_knn(___) %>%

# Create dummy variables for all nominal predictors
  ___(all_nominal_predictors())

lr_recipe
Modifier et exécuter le code