CommencerCommencer gratuitement

Imputer les valeurs manquantes et créer des variables indicatrices

Après avoir détecté des valeurs manquantes dans le jeu de données attrition et déterminé qu’elles sont manquantes complètement au hasard (MCAR), vous décidez d’utiliser l’imputation par K plus proches voisins (KNN). Lors de la configuration de votre recipe de feature engineering, vous choisissez de créer des variables indicatrices pour toutes vos variables nominales et de mettre à jour le rôle de la variable ...1 en « ID » afin de la conserver dans le jeu de données à des fins de référence, sans affecter votre modèle.

Cet exercice fait partie du cours

Feature engineering en R

Afficher le cours

Instructions

  • Mettez à jour le rôle de ...1 en « ID ».
  • Imputez des valeurs à tous les prédicteurs là où des données sont manquantes.
  • Créez des variables indicatrices pour tous les prédicteurs nominaux.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Attrition ~., data = train) %>%

# Update the role of "...1" to "ID"
  ___(...1, new_role = "ID" ) %>%

# Impute values to all predictors where data are missing
  step_impute_knn(___) %>%

# Create dummy variables for all nominal predictors
  ___(all_nominal_predictors())

lr_recipe
Modifier et exécuter le code