KNN-imputatie gebruiken

In de vorige oefening heb je mediaanimputatie gebruikt om missende waarden in de borstkankergegevensset op te vullen, maar dat is niet de enige manier om met missende data om te gaan.

Een alternatief voor mediaanimputatie is k-nearest neighbors, ofwel KNN-imputatie. Dit is een geavanceerdere vorm van imputatie waarbij missende waarden worden vervangen door waarden uit andere rijen die lijken op de huidige rij. Hoewel dit in de praktijk veel ingewikkelder te implementeren is dan eenvoudige mediaanimputatie, is het in caret heel makkelijk te verkennen met het preProcess-argument van train(). Je kunt simpelweg preProcess = "knnImpute" gebruiken om de imputatiemethode te wijzigen voordat het model wordt gefit.

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Bekijk cursus

Oefeninstructies

breast_cancer_x en breast_cancer_y zijn geladen in je werkruimte.

Gebruik de functie train() om een glm-model, knn_model, te fitten op de borstkankergegevensset.
Gebruik KNN-imputatie om met missende waarden om te gaan.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console

Code bewerken en uitvoeren