Elegir el número de vecinos
La imputación k-Nearest-Neighbors (kNN) rellena los valores faltantes de una observación basándose en los valores de las k observaciones más similares. El número de estas observaciones similares, llamadas vecinos, es un parámetro que tienes que elegir de antemano.
¿Cómo elegir k? Una opción es probar distintos valores y ver cómo afectan a las relaciones entre los datos imputados y los observados.
Vamos a imputar humidity en los datos tao usando tres valores distintos de k y veremos cómo encajan los valores imputados en la relación entre humidity y sea_surface_temp.
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")