Hot-deck: trucchi e consigli II — ordinare per variabili correlate
Un altro trucco che può migliorare le prestazioni della hot-deck imputation è ordinare i dati in base a variabili correlate a quella che vuoi imputare.
Per esempio, in tutti i margin plot che hai disegnato di recente, hai visto che la temperatura dell’aria è fortemente correlata con la temperatura superficiale del mare, il che è del tutto sensato. Puoi sfruttare questa informazione per migliorare la tua hot-deck imputation. Se ordini prima i dati per sea_surface_temp, allora ogni valore imputato di air_temp proverrà da un donatore con una sea_surface_temp simile. Vediamo come funziona!
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Imputa con hot-deck i valori mancanti di
air_tempnei datitao, ordinando persea_surface_temp, e assegna il risultato atao_imp. - Crea un margin plot di
air_tempvssea_surface_temp.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)