Comparer l’imputation KNN et l’imputation par la médiane

Toutes les étapes de prétraitement dans la fonction train() s’effectuent sur l’ensemble d’entraînement de chaque pli de validation croisée ; les métriques d’erreur reportées intègrent donc les effets du prétraitement.

Cela inclut la méthode d’imputation utilisée (par exemple knnImpute ou medianImpute). C’est utile, car cela vous permet de comparer différentes méthodes d’imputation et de choisir celle qui fonctionne le mieux en dehors de l’échantillon.

median_model et knn_model sont disponibles dans votre espace de travail, ainsi que resamples, qui contient les résultats rééchantillonnés des deux modèles. Examinez les résultats des modèles en appelant

dotplot(resamples, metric = "ROC")

et choisissez celui qui performe le mieux hors échantillon. Quelle méthode d’imputation donne le meilleur score ROC hors échantillon pour votre modèle glm ?

Cet exercice fait partie du cours

<cours>Machine Learning avec caret en R</cours>

Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice