Trucos y consejos de kNN II: ordenar variables

Como el algoritmo de k-Nearest Neighbors recorre las variables del conjunto de datos para imputarlas, calcula distancias entre observaciones usando otras variables, algunas de las cuales ya se han imputado en pasos previos. Esto significa que, si las variables que aparecen antes en los datos tienen muchos valores ausentes, el cálculo de distancias posterior se basará en muchos valores imputados. Esto introduce ruido en el cálculo de distancias.

Por esta razón, es una buena práctica ordenar las variables de forma creciente según el número de valores ausentes antes de realizar la imputación con kNN. Así, cada cálculo de distancia se basa en la mayor cantidad posible de datos observados y la menor cantidad de datos imputados.

¡Vamos a probarlo con los datos de tao!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Instrucciones del ejercicio

Calcula el número de valores ausentes en cada columna de tao en la primera parte del pipeline.
Luego, ordena las variables de forma creciente según el número de valores ausentes, extrae sus nombres y asigna el resultado a vars_by_NAs.
Usa select() para reordenar las variables de tao usando el orden guardado en vars_by_NAs.
Realiza la imputación con k-Nearest Neighbors sobre los datos reordenados y asigna el resultado a tao_imp.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo descubrirás por qué los datos faltantes pueden suponer un riesgo al analizar un conjunto de datos. Se te presentarán los tres mecanismos de datos faltantes y aprenderás a reconocerlos usando pruebas estadísticas y herramientas de visualización.

Exercise 1: Datos ausentes: qué puede salir mal Exercise 2: Regresión lineal con datos incompletos Exercise 3: Analizar la salida de una regresión Exercise 4: Comparar modelos Exercise 5: Mecanismos de datos faltantes Exercise 6: Reconocer los mecanismos de datos faltantes Exercise 7: t-test para MAR: preparación de datos Exercise 8: t-test para MAR: interpretación Exercise 9: Visualizar patrones de datos faltantes Exercise 10: Gráfico de agregación Exercise 11: Gráfico de columna vertebral (spine plot)Exercise 12: Gráfico mosaic

Conoce la taxonomía de los métodos de imputación y aprende tres técnicas basadas en donantes: imputación por media, hot-deck y k-Nearest-Neighbors. Verás cómo funcionan por dentro antes de aprender a aplicarlas a un conjunto de datos reales de clima tropical. Por el camino, también conocerás trucos útiles que podrás usar para que funcionen aún mejor en tus problemas.

Exercise 1: Imputación por la media Exercise 2: Percibiendo el peligro de la imputación por la media Exercise 3: Imputar la temperatura con la media Exercise 4: Evaluar la calidad de la imputación con un margin plot Exercise 5: Imputación hot-deck Exercise 6: Hot-deck básico Exercise 7: Trucos y consejos de hot-deck I: imputación por dominios Exercise 8: Trucos y consejos de hot-deck II: ordenar por variables correlacionadas Exercise 9: Imputación por k-Nearest-Neighbors Exercise 10: Elegir el número de vecinos Exercise 11: Trucos y consejos de kNN I: ponderar donantes Exercise 12: Trucos y consejos de kNN II: ordenar variables

Ejercicio actual

Es hora de aprender a usar modelos estadísticos y de Machine Learning, como la regresión lineal, la regresión logística y los random forests, para imputar datos faltantes. En este capítulo, verás cómo los modelos hacen sus predicciones y usarás ese conocimiento para extraer los valores imputados de distribuciones condicionales. Esto es importante porque asegura que tus imputaciones sean más variadas y plausibles, haciéndolas más similares a los datos reales.

Exercise 1: Enfoque de imputación basado en modelos Exercise 2: Imputación con regresión lineal Exercise 3: Inicializar valores ausentes e iterar sobre variables Exercise 4: Detecting convergence Exercise 5: Replicar la variabilidad de los datos Exercise 6: Imputación con regresión logística Exercise 7: Extraer de la distribución condicional Exercise 8: Imputación basada en modelos con múltiples tipos de variables Exercise 9: Imputación basada en árboles Exercise 10: Imputación con random forests Exercise 11: Errores de imputación por variable Exercise 12: Equilibrio entre velocidad y precisión

Los valores imputados no están grabados en piedra. Son estimaciones, y las estimaciones conllevan incertidumbre. En este capítulo final, descubrirás cómo el bootstrapping y las ecuaciones encadenadas usando el paquete mice pueden incorporar la incertidumbre de la imputación en tus modelos y análisis para hacerlos más fiables y robustos.

Exercise 1: Imputación múltiple mediante bootstrapping Exercise 2: Empaquetar la imputación y el modelado en una función Exercise 3: Ejecutar el bootstrap Exercise 4: Intervalos de confianza con bootstrapping Exercise 5: Imputación múltiple mediante ecuaciones encadenadas Exercise 6: El flujo de mice: mice - with - pool Exercise 7: Elegir modelos predeterminados Exercise 8: Uso de la matriz de predictores Exercise 9: Poniéndolo todo en práctica Exercise 10: Analizando patrones de datos faltantes Exercise 11: Imputación e inspección de resultados Exercise 12: Inferencia con datos imputados Exercise 13: Comentarios finales