IniziaInizia gratis

Imputare la temperatura con la media

L'imputazione con la media può essere rischiosa. Se la variabile che stai imputando con la media è correlata con altre variabili, questa correlazione potrebbe essere distrutta dai valori imputati. L'hai intravisto nell'esercizio precedente quando hai analizzato la variabile air_temp.

Per capire se queste preoccupazioni sono fondate, in questo esercizio eseguirai l'imputazione con la media su air_temp, creando anche un indicatore binario per indicare dove i valori sono stati imputati. Ti tornerà utile nel prossimo esercizio, quando valuterai le prestazioni della tua imputazione. Riempiamo quei valori mancanti!

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Nella pipeline che modifica tao, crea una nuova variabile chiamata air_temp_imp che sia TRUE se air_temp è mancante e FALSE altrimenti.
  • Più avanti nella stessa pipeline, sovrascrivi air_temp con la sua media quando è mancante e lascialo invariato altrimenti, assegnando il risultato a tao_imp.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Modifica ed esegui il codice