Imputazione basata su modelli con variabili di tipi diversi
Ottimo lavoro nello scrivere la funzione per implementare l'imputazione con regressione logistica estraendo dalla distribuzione condizionale. Hai davvero codificato statistica avanzata! In questo esercizio metterai insieme ciò che hai imparato finora sull'imputazione basata su modelli per imputare variabili di tipi diversi nei dati tao.
Il tuo compito è iterare sulle variabili come hai fatto nel capitolo precedente e imputare due variabili:
is_hot, una nuova variabile binaria creata a partire daair_temp, che vale 1 seair_tempè maggiore o uguale a 26 gradi e 0 altrimenti;humidity, una variabile continua che già conosci.
Dovrai usare la funzione di regressione lineare che hai già visto e anche la tua funzione per la regressione logistica. Andiamo!
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Imposta
is_hotaNAnei punti in cui era originariamente mancante. - Imputa
is_hotcon la regressione logistica, usandosea_surface_tempcome unico predittore; usa la tua funzioneimpute_logreg(). - Imposta
humidityaNAnei punti in cui era originariamente mancante. - Imputa
humiditycon la regressione lineare, usandosea_surface_tempeair_tempcome predittori.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}