KNN- und Median-Imputation vergleichen
Alle Vorverarbeitungsschritte in der Funktion train() finden im Trainingssatz jeder Cross-Validation-Faltung statt. Daher beinhalten die gemeldeten Fehlermetriken die Effekte der Vorverarbeitung.
Das schließt auch die verwendete Imputationsmethode ein (z. B. knnImpute oder medianImpute). Das ist hilfreich, weil du so verschiedene Imputationsmethoden vergleichen und diejenige wählen kannst, die out-of-sample am besten abschneidet.
median_model und knn_model stehen dir in deinem Workspace zur Verfügung, ebenso resamples, das die resampleten Ergebnisse beider Modelle enthält. Sieh dir die Ergebnisse der Modelle an, indem du Folgendes aufrufst:
dotplot(resamples, metric = "ROC")
und wähle dann die Methode, die out-of-sample am besten performt. Welche Imputationsmethode liefert den höchsten out-of-sample-ROC-Wert für dein glm-Modell?
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit caret in R
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten