Imputação com KNN
Conjuntos de dados quase sempre têm variáveis correlacionadas. Por isso, é importante considerá-las ao imputar valores ausentes. Modelos de Machine Learning usam as variáveis do DataFrame para encontrar correlações e padrões e, assim, prever uma variável selecionada.
Um dos modelos mais simples e eficientes é o K Nearest Neighbors (KNN). Ele encontra os 'K' pontos mais semelhantes aos pontos existentes para imputar valores ausentes.
Neste exercício, o DataFrame diabetes já foi carregado para você. Use o pacote fancyimpute para imputar os valores ausentes no DataFrame diabetes.
Este exercício faz parte do curso
Lidando com Dados Ausentes em Python
Instruções do exercício
- Importe
KNNdefancyimpute. - Copie
diabetesparadiabetes_knn_imputed. - Crie um objeto
KNN()e atribua aknn_imputer. - Impute o DataFrame
diabetes_knn_imputed.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import KNN from fancyimpute
___
# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___
# Initialize KNN
knn_imputer = ___
# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___