KNN-imputatie
Gegevenssets bevatten bijna altijd features die met elkaar correleren. Het is daarom belangrijk om die mee te nemen bij het imputeren van ontbrekende waarden. Machine Learning-modellen gebruiken features in de DataFrame om correlaties en patronen te vinden en een geselecteerde feature te voorspellen.
Een van de simpelste en efficiëntste modellen is K Nearest Neighbors. Dit model zoekt de 'K' punten die het meest lijken op de bestaande datapunten om ontbrekende waarden te imputeren.
In deze oefening is de diabetes-DataFrame al voor je ingeladen. Gebruik het pakket fancyimpute om de ontbrekende waarden in de diabetes-DataFrame te imputeren.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Oefeninstructies
- Importeer
KNNuitfancyimpute. - Kopieer
diabetesnaardiabetes_knn_imputed. - Maak een
KNN()-object en wijs dit toe aanknn_imputer. - Imputeer de DataFrame
diabetes_knn_imputed.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import KNN from fancyimpute
___
# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___
# Initialize KNN
knn_imputer = ___
# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___