IniziaInizia gratis

Hot-deck: trucchi e consigli I — imputazione per domini

Un trucco utile quando l'imputazione hot-deck rompe le relazioni tra variabili è imputare per domini. In pratica, se la variabile da imputare è correlata a un'altra variabile categorica, puoi semplicemente eseguire l'hot-deck separatamente per ciascuna delle sue categorie.

Per esempio, potresti aspettarti che la temperatura dell'aria dipenda dal tempo, dato che le temperature medie stanno aumentando a causa del riscaldamento globale. L'indicatore temporale disponibile nei dati tao è una variabile categorica, year. Verifica prima se la temperatura media dell'aria è diversa nei due anni studiati e poi esegui l'hot-deck all'interno dei domini definiti da year. Infine, traccia di nuovo la margin plot per valutare la qualità dell'imputazione.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola la media di air_temp per ciascun anno, chiamando il risultato average_air_temp ed escludendo gli NA dal calcolo della media.
  • Imputa i valori mancanti in air_temp nei dati tao all'interno dei domini year usando l'imputazione hot-deck e assegna il risultato a tao_imp.
  • Crea una margin plot di air_temp vs sea_surface_temp; ricorda di includere air_temp_imp tra le variabili che passi alla funzione di plotting.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Modifica ed esegui il codice