ComenzarEmpieza gratis

Elegir el número de vecinos

La imputación k-Nearest-Neighbors (kNN) rellena los valores faltantes de una observación basándose en los valores de las k observaciones más similares. El número de estas observaciones similares, llamadas vecinos, es un parámetro que tienes que elegir de antemano.

¿Cómo elegir k? Una opción es probar distintos valores y ver cómo afectan a las relaciones entre los datos imputados y los observados.

Vamos a imputar humidity en los datos tao usando tres valores distintos de k y veremos cómo encajan los valores imputados en la relación entre humidity y sea_surface_temp.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Editar y ejecutar código