Imputazione con KNN
Gli insiemi di dati hanno spesso variabili tra loro correlate. Per questo è importante considerarle quando si imputano i valori mancanti. I modelli di Machine Learning usano le variabili nel DataFrame per trovare correlazioni e pattern e prevedere una variabile selezionata.
Uno dei modelli più semplici ed efficienti è K Nearest Neighbors: trova i 'K' punti più simili a quelli esistenti per imputare i valori mancanti.
In questo esercizio, il DataFrame diabetes è già stato caricato per te. Usa il pacchetto fancyimpute per imputare i valori mancanti nel DataFrame diabetes.
Questo esercizio fa parte del corso
Gestire i dati mancanti in Python
Istruzioni dell'esercizio
- Importa
KNNdafancyimpute. - Copia
diabetesindiabetes_knn_imputed. - Crea un oggetto
KNN()e assegnalo aknn_imputer. - Imputa il DataFrame
diabetes_knn_imputed.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import KNN from fancyimpute
___
# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___
# Initialize KNN
knn_imputer = ___
# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___