ComenzarEmpieza gratis

Usa imputación KNN

En el ejercicio anterior, usaste imputación por mediana para rellenar valores ausentes en el conjunto de datos de cáncer de mama, pero no es el único método para tratar los datos faltantes.

Una alternativa es la imputación por k vecinos más cercanos (KNN). Es una forma más avanzada en la que los valores ausentes se sustituyen por valores de otras filas similares a la fila actual. Aunque implementarla desde cero es bastante más complejo que la imputación por mediana, en caret es muy fácil probarla usando el argumento preProcess de train(). Basta con usar preProcess = "knnImpute" para cambiar el método de imputación que se aplica antes de ajustar el modelo.

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Instrucciones del ejercicio

breast_cancer_x y breast_cancer_y están cargados en tu espacio de trabajo.

  • Usa la función train() para ajustar un modelo glm llamado knn_model al conjunto de datos de cáncer de mama.
  • Utiliza imputación KNN para manejar los valores ausentes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console
Editar y ejecutar código