Hot-deck: trucchi e consigli I — imputazione per domini
Un trucco utile quando l'imputazione hot-deck rompe le relazioni tra variabili è imputare per domini. In pratica, se la variabile da imputare è correlata a un'altra variabile categorica, puoi semplicemente eseguire l'hot-deck separatamente per ciascuna delle sue categorie.
Per esempio, potresti aspettarti che la temperatura dell'aria dipenda dal tempo, dato che le temperature medie stanno aumentando a causa del riscaldamento globale. L'indicatore temporale disponibile nei dati tao è una variabile categorica, year. Verifica prima se la temperatura media dell'aria è diversa nei due anni studiati e poi esegui l'hot-deck all'interno dei domini definiti da year. Infine, traccia di nuovo la margin plot per valutare la qualità dell'imputazione.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Calcola la media di
air_tempper ciascun anno, chiamando il risultatoaverage_air_temped escludendo gliNAdal calcolo della media. - Imputa i valori mancanti in
air_tempnei datitaoall'interno dei dominiyearusando l'imputazione hot-deck e assegna il risultato atao_imp. - Crea una margin plot di
air_tempvssea_surface_temp; ricorda di includereair_temp_imptra le variabili che passi alla funzione di plotting.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)