KNN-imputatie

Gegevenssets bevatten bijna altijd features die met elkaar correleren. Het is daarom belangrijk om die mee te nemen bij het imputeren van ontbrekende waarden. Machine Learning-modellen gebruiken features in de DataFrame om correlaties en patronen te vinden en een geselecteerde feature te voorspellen.

Een van de simpelste en efficiëntste modellen is K Nearest Neighbors. Dit model zoekt de 'K' punten die het meest lijken op de bestaande datapunten om ontbrekende waarden te imputeren.

In deze oefening is de diabetes-DataFrame al voor je ingeladen. Gebruik het pakket fancyimpute om de ontbrekende waarden in de diabetes-DataFrame te imputeren.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Bekijk cursus

Oefeninstructies

Importeer KNN uit fancyimpute.
Kopieer diabetes naar diabetes_knn_imputed.
Maak een KNN()-object en wijs dit toe aan knn_imputer.
Imputeer de DataFrame diabetes_knn_imputed.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import KNN from fancyimpute
___

# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___

# Initialize KNN
knn_imputer = ___

# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___

Code bewerken en uitvoeren