Imputação com KNN
Conjuntos de dados quase sempre têm variáveis correlacionadas. Por isso, é importante considerá-las ao imputar valores ausentes. Modelos de Machine Learning usam as variáveis do DataFrame para encontrar correlações e padrões e, assim, prever uma variável selecionada.
Um dos modelos mais simples e eficientes é o K Nearest Neighbors (KNN). Ele encontra os 'K' pontos mais semelhantes aos pontos existentes para imputar valores ausentes.
Neste exercício, o DataFrame diabetes já foi carregado para você. Use o pacote fancyimpute para imputar os valores ausentes no DataFrame diabetes.
Este exercicio faz parte do curso
Lidando com Dados Ausentes em Python
Instruções do exercicio
- Importe
KNNdefancyimpute. - Copie
diabetesparadiabetes_knn_imputed. - Crie um objeto
KNN()e atribua aknn_imputer. - Impute o DataFrame
diabetes_knn_imputed.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Import KNN from fancyimpute
___
# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___
# Initialize KNN
knn_imputer = ___
# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___