IniziaInizia gratis

Imputazione basata su modelli con variabili di tipi diversi

Ottimo lavoro nello scrivere la funzione per implementare l'imputazione con regressione logistica estraendo dalla distribuzione condizionale. Hai davvero codificato statistica avanzata! In questo esercizio metterai insieme ciò che hai imparato finora sull'imputazione basata su modelli per imputare variabili di tipi diversi nei dati tao.

Il tuo compito è iterare sulle variabili come hai fatto nel capitolo precedente e imputare due variabili:

  • is_hot, una nuova variabile binaria creata a partire da air_temp, che vale 1 se air_temp è maggiore o uguale a 26 gradi e 0 altrimenti;
  • humidity, una variabile continua che già conosci.

Dovrai usare la funzione di regressione lineare che hai già visto e anche la tua funzione per la regressione logistica. Andiamo!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Imposta is_hot a NA nei punti in cui era originariamente mancante.
  • Imputa is_hot con la regressione logistica, usando sea_surface_temp come unico predittore; usa la tua funzione impute_logreg().
  • Imposta humidity a NA nei punti in cui era originariamente mancante.
  • Imputa humidity con la regressione lineare, usando sea_surface_temp e air_temp come predittori.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Modifica ed esegui il codice