Use imputação KNN
No exercício anterior, você usou imputação pela mediana para preencher valores ausentes no conjunto de dados de câncer de mama, mas essa não é a única forma de lidar com dados faltantes.
Uma alternativa à imputação pela mediana é a imputação por k-vizinhos mais próximos (KNN). É uma forma mais avançada de imputação, em que valores ausentes são substituídos por valores de outras linhas semelhantes à linha atual. Embora seja bem mais trabalhoso implementar isso na prática do que a imputação simples pela mediana, é muito fácil explorar no caret usando o argumento preProcess de train(). Você pode simplesmente usar preProcess = "knnImpute" para mudar o método de imputação aplicado antes do ajuste do modelo.
Este exercício faz parte do curso
Machine Learning com caret em R
Instruções do exercício
breast_cancer_x e breast_cancer_y estão carregados no seu workspace.
- Use a função
train()para ajustar um modeloglmchamadoknn_modelao conjunto de dados de câncer de mama. - Use imputação KNN para tratar os valores ausentes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console