KNN-imputatie en mediaanimputatie vergelijken
Alle preprocessingstappen in de train()-functie gebeuren in de trainingset van elke kruisvalidatiefold, waardoor de gerapporteerde foutmaten ook het effect van de preprocessing bevatten.
Dit geldt ook voor de gebruikte imputatiemethode (bijv. knnImpute of medianImpute). Dit is handig, omdat je zo verschillende imputatiemethoden kunt vergelijken en de methode kunt kiezen die out-of-sample het beste presteert.
median_model en knn_model zijn beschikbaar in je werkruimte, net als resamples, dat de herbemonsterde resultaten van beide modellen bevat. Bekijk de resultaten van de modellen door
dotplot(resamples, metric = "ROC")
aan te roepen en kies degene die out-of-sample het best presteert. Welke imputatiemethode levert de hoogste out-of-sample ROC-score op voor je glm-model?
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen