IniziaInizia gratis

Pulizia dei dati NHANES

Durante la pulizia dei dati, abbiamo scoperto che nessuno sotto i 16 anni ha ricevuto il trattamento. Ricorda che stiamo ipotizzando che la variabile che indica se un medico abbia mai consigliato di ridurre i grassi o le calorie nella dieta rappresenti una consulenza nutrizionale mirata, cioè il nostro trattamento. Teniamo quindi nel dataset solo i pazienti con più di 16 anni.

Avrai anche notato che le impostazioni predefinite di ggplot2 eliminano le osservazioni con la variabile dipendente mancante, in questo caso il peso corporeo. Una soluzione per gestire i pesi mancanti è l’imputazione, realizzabile con il pacchetto simputation. L’imputazione è una tecnica per gestire i valori mancanti sostituendoli con una statistica riassuntiva, come media o mediana, oppure usando un modello per predire un valore da utilizzare.

Useremo impute_median(), che richiede come argomenti un dataset e la variabile da imputare o una formula per imputare per gruppi. Ad esempio, impute_median(ToothGrowth, len ~ dose) riempie i valori mancanti nella variabile len con la mediana di len per ciascun valore di dose. Quindi, se una cavia che ha ricevuto una dose di 2.0 ha un valore mancante per len, questo verrà sostituito con la mediana di len per le cavie con dose pari a 2.0.

Questo esercizio fa parte del corso

Progettazione Sperimentale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea nhanes_filter usando filter() per tenere nel dataset chi ha più di 16 anni, escludendo chi ha 16 anni. L’età è memorizzata nella variabile ridageyr.
  • Carica simputation. Usa impute_median() per riempire i valori mancanti di bmxwt in nhanes_filter, raggruppando per riagendr.
  • Ricodifica la variabile nhanes_final$mcq365d impostando a 2 tutte le osservazioni con valore 9. Verifica che la ricodifica abbia funzionato con count().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)

# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)

# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d, 
                               `1` = 1,
                               `2` = 2,
                               `9` = ___)
___ %>% ___
Modifica ed esegui il codice