KNN-imputatie en mediaanimputatie vergelijken

Alle preprocessingstappen in de train()-functie gebeuren in de trainingset van elke kruisvalidatiefold, waardoor de gerapporteerde foutmaten ook het effect van de preprocessing bevatten.

Dit geldt ook voor de gebruikte imputatiemethode (bijv. knnImpute of medianImpute). Dit is handig, omdat je zo verschillende imputatiemethoden kunt vergelijken en de methode kunt kiezen die out-of-sample het beste presteert.

median_model en knn_model zijn beschikbaar in je werkruimte, net als resamples, dat de herbemonsterde resultaten van beide modellen bevat. Bekijk de resultaten van de modellen door

dotplot(resamples, metric = "ROC")

aan te roepen en kies degene die out-of-sample het best presteert. Welke imputatiemethode levert de hoogste out-of-sample ROC-score op voor je glm-model?

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening