Imputación basada en modelos con múltiples tipos de variables
¡Buen trabajo escribiendo la función para implementar la imputación con regresión logística extrayendo de la distribución condicional! ¡Has codificado estadística bastante avanzada! En este ejercicio, combinarás lo que has aprendido hasta ahora sobre imputación basada en modelos para imputar distintos tipos de variables en los datos de tao.
Tu tarea es iterar sobre variables como ya hiciste en el capítulo anterior e imputar dos variables:
is_hot, una nueva variable binaria creada a partir deair_temp, que vale 1 siair_tempes mayor o igual que 26 grados y 0 en caso contrario;humidity, una variable continua con la que ya estás familiarizado.
Tendrás que usar la función de regresión lineal que aprendiste antes, además de tu propia función para la regresión logística. ¡Vamos a ello!
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- Establece
is_hotcomoNAen los lugares donde originalmente faltaba. - Imputa
is_hotcon regresión logística, usandosea_surface_tempcomo único predictor; usa tu funciónimpute_logreg(). - Establece
humiditycomoNAen los lugares donde originalmente faltaba. - Imputa
humiditycon regresión lineal, usandosea_surface_tempyair_tempcomo predictores.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}