ComenzarEmpieza gratis

Imputación basada en modelos con múltiples tipos de variables

¡Buen trabajo escribiendo la función para implementar la imputación con regresión logística extrayendo de la distribución condicional! ¡Has codificado estadística bastante avanzada! En este ejercicio, combinarás lo que has aprendido hasta ahora sobre imputación basada en modelos para imputar distintos tipos de variables en los datos de tao.

Tu tarea es iterar sobre variables como ya hiciste en el capítulo anterior e imputar dos variables:

  • is_hot, una nueva variable binaria creada a partir de air_temp, que vale 1 si air_temp es mayor o igual que 26 grados y 0 en caso contrario;
  • humidity, una variable continua con la que ya estás familiarizado.

Tendrás que usar la función de regresión lineal que aprendiste antes, además de tu propia función para la regresión logística. ¡Vamos a ello!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • Establece is_hot como NA en los lugares donde originalmente faltaba.
  • Imputa is_hot con regresión logística, usando sea_surface_temp como único predictor; usa tu función impute_logreg().
  • Establece humidity como NA en los lugares donde originalmente faltaba.
  • Imputa humidity con regresión lineal, usando sea_surface_temp y air_temp como predictores.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Editar y ejecutar código