CommencerCommencer gratuitement

Utiliser l’imputation KNN

Dans l’exercice précédent, vous avez utilisé l’imputation par la médiane pour compléter les valeurs manquantes du jeu de données sur le cancer du sein, mais ce n’est pas la seule façon de gérer les données manquantes.

Une alternative est l’imputation par les k plus proches voisins (KNN). Il s’agit d’une méthode plus avancée où les valeurs manquantes sont remplacées par des valeurs provenant d’autres lignes similaires à la ligne courante. Bien que cela soit beaucoup plus complexe à mettre en œuvre en pratique que l’imputation simple par la médiane, c’est très facile à explorer dans caret grâce à l’argument preProcess de train(). Il suffit d’utiliser preProcess = "knnImpute" pour changer la méthode d’imputation utilisée avant l’ajustement du modèle.

Cet exercice fait partie du cours

Machine Learning avec caret en R

Afficher le cours

Instructions

breast_cancer_x et breast_cancer_y sont chargés dans votre espace de travail.

  • Utilisez la fonction train() pour ajuster un modèle glm nommé knn_model sur le jeu de données sur le cancer du sein.
  • Utilisez l’imputation KNN pour gérer les valeurs manquantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console
Modifier et exécuter le code