Utiliser l’imputation KNN
Dans l’exercice précédent, vous avez utilisé l’imputation par la médiane pour compléter les valeurs manquantes du jeu de données sur le cancer du sein, mais ce n’est pas la seule façon de gérer les données manquantes.
Une alternative est l’imputation par les k plus proches voisins (KNN). Il s’agit d’une méthode plus avancée où les valeurs manquantes sont remplacées par des valeurs provenant d’autres lignes similaires à la ligne courante. Bien que cela soit beaucoup plus complexe à mettre en œuvre en pratique que l’imputation simple par la médiane, c’est très facile à explorer dans caret grâce à l’argument preProcess de train(). Il suffit d’utiliser preProcess = "knnImpute" pour changer la méthode d’imputation utilisée avant l’ajustement du modèle.
Cet exercice fait partie du cours
Machine Learning avec caret en R
Instructions
breast_cancer_x et breast_cancer_y sont chargés dans votre espace de travail.
- Utilisez la fonction
train()pour ajuster un modèleglmnomméknn_modelsur le jeu de données sur le cancer du sein. - Utilisez l’imputation KNN pour gérer les valeurs manquantes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console