Comparer l’imputation KNN et l’imputation par la médiane
Toutes les étapes de prétraitement dans la fonction train() s’effectuent sur l’ensemble d’entraînement de chaque pli de validation croisée ; les métriques d’erreur reportées intègrent donc les effets du prétraitement.
Cela inclut la méthode d’imputation utilisée (par exemple knnImpute ou medianImpute). C’est utile, car cela vous permet de comparer différentes méthodes d’imputation et de choisir celle qui fonctionne le mieux en dehors de l’échantillon.
median_model et knn_model sont disponibles dans votre espace de travail, ainsi que resamples, qui contient les résultats rééchantillonnés des deux modèles. Examinez les résultats des modèles en appelant
dotplot(resamples, metric = "ROC")
et choisissez celui qui performe le mieux hors échantillon. Quelle méthode d’imputation donne le meilleur score ROC hors échantillon pour votre modèle glm ?
Cet exercice fait partie du cours
Machine Learning avec caret en R
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice