Pulizia dei dati NHANES
Durante la pulizia dei dati, abbiamo scoperto che nessuno sotto i 16 anni ha ricevuto il trattamento. Ricorda che stiamo ipotizzando che la variabile che indica se un medico abbia mai consigliato di ridurre i grassi o le calorie nella dieta rappresenti una consulenza nutrizionale mirata, cioè il nostro trattamento. Teniamo quindi nel dataset solo i pazienti con più di 16 anni.
Avrai anche notato che le impostazioni predefinite di ggplot2 eliminano le osservazioni con la variabile dipendente mancante, in questo caso il peso corporeo. Una soluzione per gestire i pesi mancanti è l’imputazione, realizzabile con il pacchetto simputation. L’imputazione è una tecnica per gestire i valori mancanti sostituendoli con una statistica riassuntiva, come media o mediana, oppure usando un modello per predire un valore da utilizzare.
Useremo impute_median(), che richiede come argomenti un dataset e la variabile da imputare o una formula per imputare per gruppi. Ad esempio, impute_median(ToothGrowth, len ~ dose) riempie i valori mancanti nella variabile len con la mediana di len per ciascun valore di dose. Quindi, se una cavia che ha ricevuto una dose di 2.0 ha un valore mancante per len, questo verrà sostituito con la mediana di len per le cavie con dose pari a 2.0.
Questo esercizio fa parte del corso
Progettazione Sperimentale in R
Istruzioni dell'esercizio
- Crea
nhanes_filterusandofilter()per tenere nel dataset chi ha più di 16 anni, escludendo chi ha 16 anni. L’età è memorizzata nella variabileridageyr. - Carica
simputation. Usaimpute_median()per riempire i valori mancanti dibmxwtinnhanes_filter, raggruppando perriagendr. - Ricodifica la variabile
nhanes_final$mcq365dimpostando a 2 tutte le osservazioni con valore 9. Verifica che la ricodifica abbia funzionato concount().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)
# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)
# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d,
`1` = 1,
`2` = 2,
`9` = ___)
___ %>% ___