Trucos y consejos de kNN I: ponderar donantes

Una variación de la imputación kNN que se usa con frecuencia aplica la llamada agregación ponderada por distancia. Esto significa que, cuando agregamos los valores de los vecinos para obtener un reemplazo de un valor ausente, lo hacemos usando la media ponderada y los pesos son las distancias invertidas desde cada vecino. Como resultado, los vecinos más cercanos tienen más impacto en el valor imputado.

En este ejercicio, aplicarás la agregación ponderada por distancia al imputar los datos de tao. Solo hará falta pasar dos argumentos adicionales a la función kNN(). ¡Vamos a probarlo!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Instrucciones del ejercicio

Carga el paquete VIM.
Imputa humidity con kNN usando la media ponderada por distancia para agregar los vecinos; tendrás que especificar los argumentos numFun y weightDist.
Ya tienes programada la gráfica de márgenes para ver los resultados.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Load the VIM package
___(___)

# Impute humidity with kNN using distance-weighted mean
tao_imp <- ___(tao, 
               k = 5, 
               variable = "humidity", 
               ___ = ___,
               ___ = ___)

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo descubrirás por qué los datos faltantes pueden suponer un riesgo al analizar un conjunto de datos. Se te presentarán los tres mecanismos de datos faltantes y aprenderás a reconocerlos usando pruebas estadísticas y herramientas de visualización.

Exercise 1: Datos ausentes: qué puede salir mal Exercise 2: Regresión lineal con datos incompletos Exercise 3: Analizar la salida de una regresión Exercise 4: Comparar modelos Exercise 5: Mecanismos de datos faltantes Exercise 6: Reconocer los mecanismos de datos faltantes Exercise 7: t-test para MAR: preparación de datos Exercise 8: t-test para MAR: interpretación Exercise 9: Visualizar patrones de datos faltantes Exercise 10: Gráfico de agregación Exercise 11: Gráfico de columna vertebral (spine plot)Exercise 12: Gráfico mosaic

Conoce la taxonomía de los métodos de imputación y aprende tres técnicas basadas en donantes: imputación por media, hot-deck y k-Nearest-Neighbors. Verás cómo funcionan por dentro antes de aprender a aplicarlas a un conjunto de datos reales de clima tropical. Por el camino, también conocerás trucos útiles que podrás usar para que funcionen aún mejor en tus problemas.

Exercise 1: Imputación por la media Exercise 2: Percibiendo el peligro de la imputación por la media Exercise 3: Imputar la temperatura con la media Exercise 4: Evaluar la calidad de la imputación con un margin plot Exercise 5: Imputación hot-deck Exercise 6: Hot-deck básico Exercise 7: Trucos y consejos de hot-deck I: imputación por dominios Exercise 8: Trucos y consejos de hot-deck II: ordenar por variables correlacionadas Exercise 9: Imputación por k-Nearest-Neighbors Exercise 10: Elegir el número de vecinos Exercise 11: Trucos y consejos de kNN I: ponderar donantes

Ejercicio actual

Exercise 12: Trucos y consejos de kNN II: ordenar variables

Es hora de aprender a usar modelos estadísticos y de Machine Learning, como la regresión lineal, la regresión logística y los random forests, para imputar datos faltantes. En este capítulo, verás cómo los modelos hacen sus predicciones y usarás ese conocimiento para extraer los valores imputados de distribuciones condicionales. Esto es importante porque asegura que tus imputaciones sean más variadas y plausibles, haciéndolas más similares a los datos reales.

Exercise 1: Enfoque de imputación basado en modelos Exercise 2: Imputación con regresión lineal Exercise 3: Inicializar valores ausentes e iterar sobre variables Exercise 4: Detecting convergence Exercise 5: Replicar la variabilidad de los datos Exercise 6: Imputación con regresión logística Exercise 7: Extraer de la distribución condicional Exercise 8: Imputación basada en modelos con múltiples tipos de variables Exercise 9: Imputación basada en árboles Exercise 10: Imputación con random forests Exercise 11: Errores de imputación por variable Exercise 12: Equilibrio entre velocidad y precisión

Los valores imputados no están grabados en piedra. Son estimaciones, y las estimaciones conllevan incertidumbre. En este capítulo final, descubrirás cómo el bootstrapping y las ecuaciones encadenadas usando el paquete mice pueden incorporar la incertidumbre de la imputación en tus modelos y análisis para hacerlos más fiables y robustos.

Exercise 1: Imputación múltiple mediante bootstrapping Exercise 2: Empaquetar la imputación y el modelado en una función Exercise 3: Ejecutar el bootstrap Exercise 4: Intervalos de confianza con bootstrapping Exercise 5: Imputación múltiple mediante ecuaciones encadenadas Exercise 6: El flujo de mice: mice - with - pool Exercise 7: Elegir modelos predeterminados Exercise 8: Uso de la matriz de predictores Exercise 9: Poniéndolo todo en práctica Exercise 10: Analizando patrones de datos faltantes Exercise 11: Imputación e inspección de resultados Exercise 12: Inferencia con datos imputados Exercise 13: Comentarios finales