Imputare la temperatura con la media
L'imputazione con la media può essere rischiosa. Se la variabile che stai imputando con la media è correlata con altre variabili, questa correlazione potrebbe essere distrutta dai valori imputati. L'hai intravisto nell'esercizio precedente quando hai analizzato la variabile air_temp.
Per capire se queste preoccupazioni sono fondate, in questo esercizio eseguirai l'imputazione con la media su air_temp, creando anche un indicatore binario per indicare dove i valori sono stati imputati. Ti tornerà utile nel prossimo esercizio, quando valuterai le prestazioni della tua imputazione. Riempiamo quei valori mancanti!
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Nella pipeline che modifica
tao, crea una nuova variabile chiamataair_temp_impche siaTRUEseair_tempè mancante eFALSEaltrimenti. - Più avanti nella stessa pipeline, sovrascrivi
air_tempcon la sua media quando è mancante e lascialo invariato altrimenti, assegnando il risultato atao_imp.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)