Aan de slagGa gratis aan de slag

KNN-imputatie

Gegevenssets bevatten bijna altijd features die met elkaar correleren. Het is daarom belangrijk om die mee te nemen bij het imputeren van ontbrekende waarden. Machine Learning-modellen gebruiken features in de DataFrame om correlaties en patronen te vinden en een geselecteerde feature te voorspellen.

Een van de simpelste en efficiëntste modellen is K Nearest Neighbors. Dit model zoekt de 'K' punten die het meest lijken op de bestaande datapunten om ontbrekende waarden te imputeren.

In deze oefening is de diabetes-DataFrame al voor je ingeladen. Gebruik het pakket fancyimpute om de ontbrekende waarden in de diabetes-DataFrame te imputeren.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Cursus bekijken

Oefeninstructies

  • Importeer KNN uit fancyimpute.
  • Kopieer diabetes naar diabetes_knn_imputed.
  • Maak een KNN()-object en wijs dit toe aan knn_imputer.
  • Imputeer de DataFrame diabetes_knn_imputed.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import KNN from fancyimpute
___

# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___

# Initialize KNN
knn_imputer = ___

# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___
Code bewerken en uitvoeren