KNN-imputatie gebruiken
In de vorige oefening heb je mediaanimputatie gebruikt om missende waarden in de borstkankergegevensset op te vullen, maar dat is niet de enige manier om met missende data om te gaan.
Een alternatief voor mediaanimputatie is k-nearest neighbors, ofwel KNN-imputatie. Dit is een geavanceerdere vorm van imputatie waarbij missende waarden worden vervangen door waarden uit andere rijen die lijken op de huidige rij. Hoewel dit in de praktijk veel ingewikkelder te implementeren is dan eenvoudige mediaanimputatie, is het in caret heel makkelijk te verkennen met het preProcess-argument van train(). Je kunt simpelweg preProcess = "knnImpute" gebruiken om de imputatiemethode te wijzigen voordat het model wordt gefit.
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Oefeninstructies
breast_cancer_x en breast_cancer_y zijn geladen in je werkruimte.
- Gebruik de functie
train()om eenglm-model,knn_model, te fitten op de borstkankergegevensset. - Gebruik KNN-imputatie om met missende waarden om te gaan.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console