ComeçarComece de graça

Use imputação KNN

No exercício anterior, você usou imputação pela mediana para preencher valores ausentes no conjunto de dados de câncer de mama, mas essa não é a única forma de lidar com dados faltantes.

Uma alternativa à imputação pela mediana é a imputação por k-vizinhos mais próximos (KNN). É uma forma mais avançada de imputação, em que valores ausentes são substituídos por valores de outras linhas semelhantes à linha atual. Embora seja bem mais trabalhoso implementar isso na prática do que a imputação simples pela mediana, é muito fácil explorar no caret usando o argumento preProcess de train(). Você pode simplesmente usar preProcess = "knnImpute" para mudar o método de imputação aplicado antes do ajuste do modelo.

Este exercício faz parte do curso

Machine Learning com caret em R

Ver curso

Instruções do exercício

breast_cancer_x e breast_cancer_y estão carregados no seu workspace.

  • Use a função train() para ajustar um modelo glm chamado knn_model ao conjunto de dados de câncer de mama.
  • Use imputação KNN para tratar os valores ausentes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console
Editar e executar o código