IniziaInizia gratis

Hot-deck: trucchi e consigli II — ordinare per variabili correlate

Un altro trucco che può migliorare le prestazioni della hot-deck imputation è ordinare i dati in base a variabili correlate a quella che vuoi imputare.

Per esempio, in tutti i margin plot che hai disegnato di recente, hai visto che la temperatura dell’aria è fortemente correlata con la temperatura superficiale del mare, il che è del tutto sensato. Puoi sfruttare questa informazione per migliorare la tua hot-deck imputation. Se ordini prima i dati per sea_surface_temp, allora ogni valore imputato di air_temp proverrà da un donatore con una sea_surface_temp simile. Vediamo come funziona!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Imputa con hot-deck i valori mancanti di air_temp nei dati tao, ordinando per sea_surface_temp, e assegna il risultato a tao_imp.
  • Crea un margin plot di air_temp vs sea_surface_temp.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Modifica ed esegui il codice