Elegir el número de vecinos

La imputación k-Nearest-Neighbors (kNN) rellena los valores faltantes de una observación basándose en los valores de las k observaciones más similares. El número de estas observaciones similares, llamadas vecinos, es un parámetro que tienes que elegir de antemano.

¿Cómo elegir k? Una opción es probar distintos valores y ver cómo afectan a las relaciones entre los datos imputados y los observados.

Vamos a imputar humidity en los datos tao usando tres valores distintos de k y veremos cómo encajan los valores imputados en la relación entre humidity y sea_surface_temp.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo descubrirás por qué los datos faltantes pueden suponer un riesgo al analizar un conjunto de datos. Se te presentarán los tres mecanismos de datos faltantes y aprenderás a reconocerlos usando pruebas estadísticas y herramientas de visualización.

Exercise 1: Datos ausentes: qué puede salir mal Exercise 2: Regresión lineal con datos incompletos Exercise 3: Analizar la salida de una regresión Exercise 4: Comparar modelos Exercise 5: Mecanismos de datos faltantes Exercise 6: Reconocer los mecanismos de datos faltantes Exercise 7: t-test para MAR: preparación de datos Exercise 8: t-test para MAR: interpretación Exercise 9: Visualizar patrones de datos faltantes Exercise 10: Gráfico de agregación Exercise 11: Gráfico de columna vertebral (spine plot)Exercise 12: Gráfico mosaic

Conoce la taxonomía de los métodos de imputación y aprende tres técnicas basadas en donantes: imputación por media, hot-deck y k-Nearest-Neighbors. Verás cómo funcionan por dentro antes de aprender a aplicarlas a un conjunto de datos reales de clima tropical. Por el camino, también conocerás trucos útiles que podrás usar para que funcionen aún mejor en tus problemas.

Exercise 1: Imputación por la media Exercise 2: Percibiendo el peligro de la imputación por la media Exercise 3: Imputar la temperatura con la media Exercise 4: Evaluar la calidad de la imputación con un margin plot Exercise 5: Imputación hot-deck Exercise 6: Hot-deck básico Exercise 7: Trucos y consejos de hot-deck I: imputación por dominios Exercise 8: Trucos y consejos de hot-deck II: ordenar por variables correlacionadas Exercise 9: Imputación por k-Nearest-Neighbors Exercise 10: Elegir el número de vecinos

Ejercicio actual

Exercise 11: Trucos y consejos de kNN I: ponderar donantes Exercise 12: Trucos y consejos de kNN II: ordenar variables

Es hora de aprender a usar modelos estadísticos y de Machine Learning, como la regresión lineal, la regresión logística y los random forests, para imputar datos faltantes. En este capítulo, verás cómo los modelos hacen sus predicciones y usarás ese conocimiento para extraer los valores imputados de distribuciones condicionales. Esto es importante porque asegura que tus imputaciones sean más variadas y plausibles, haciéndolas más similares a los datos reales.

Exercise 1: Enfoque de imputación basado en modelos Exercise 2: Imputación con regresión lineal Exercise 3: Inicializar valores ausentes e iterar sobre variables Exercise 4: Detecting convergence Exercise 5: Replicar la variabilidad de los datos Exercise 6: Imputación con regresión logística Exercise 7: Extraer de la distribución condicional Exercise 8: Imputación basada en modelos con múltiples tipos de variables Exercise 9: Imputación basada en árboles Exercise 10: Imputación con random forests Exercise 11: Errores de imputación por variable Exercise 12: Equilibrio entre velocidad y precisión

Los valores imputados no están grabados en piedra. Son estimaciones, y las estimaciones conllevan incertidumbre. En este capítulo final, descubrirás cómo el bootstrapping y las ecuaciones encadenadas usando el paquete mice pueden incorporar la incertidumbre de la imputación en tus modelos y análisis para hacerlos más fiables y robustos.

Exercise 1: Imputación múltiple mediante bootstrapping Exercise 2: Empaquetar la imputación y el modelado en una función Exercise 3: Ejecutar el bootstrap Exercise 4: Intervalos de confianza con bootstrapping Exercise 5: Imputación múltiple mediante ecuaciones encadenadas Exercise 6: El flujo de mice: mice - with - pool Exercise 7: Elegir modelos predeterminados Exercise 8: Uso de la matriz de predictores Exercise 9: Poniéndolo todo en práctica Exercise 10: Analizando patrones de datos faltantes Exercise 11: Imputación e inspección de resultados Exercise 12: Inferencia con datos imputados Exercise 13: Comentarios finales