ComenzarEmpieza gratis

Imputar la temperatura con la media

La imputación por la media puede ser arriesgada. Si la variable que vas a imputar con su media está correlacionada con otras variables, esa correlación podría romperse con los valores imputados. Ya lo viste venir en el ejercicio anterior cuando analizaste la variable air_temp.

Para comprobar si estas preocupaciones están justificadas, en este ejercicio vas a realizar una imputación por la media de air_temp, y además crearás un indicador binario que señale dónde se han imputado los valores. Te será útil en el siguiente ejercicio, cuando evalúes el rendimiento de tu imputación. ¡Vamos a completar esos valores faltantes!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • En la canalización que modifica tao, crea una nueva variable llamada air_temp_imp que sea TRUE si air_temp falta y FALSE en caso contrario.
  • Más adelante en la misma canalización, sobrescribe air_temp con su propia media cuando falte y déjala intacta en caso contrario, asignando el resultado a tao_imp.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Editar y ejecutar código