Imputar la temperatura con la media
La imputación por la media puede ser arriesgada. Si la variable que vas a imputar con su media está correlacionada con otras variables, esa correlación podría romperse con los valores imputados. Ya lo viste venir en el ejercicio anterior cuando analizaste la variable air_temp.
Para comprobar si estas preocupaciones están justificadas, en este ejercicio vas a realizar una imputación por la media de air_temp, y además crearás un indicador binario que señale dónde se han imputado los valores. Te será útil en el siguiente ejercicio, cuando evalúes el rendimiento de tu imputación. ¡Vamos a completar esos valores faltantes!
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- En la canalización que modifica
tao, crea una nueva variable llamadaair_temp_impque seaTRUEsiair_tempfalta yFALSEen caso contrario. - Más adelante en la misma canalización, sobrescribe
air_tempcon su propia media cuando falte y déjala intacta en caso contrario, asignando el resultado atao_imp.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)