t-test per MAR: preparazione dei dati
Ottimo lavoro nel classificare i meccanismi dei dati mancanti nell'esercizio precedente! Tra i tre, MAR è probabilmente il più importante da individuare, perché molti metodi di imputazione assumono che i dati siano MAR. Questo esercizio, quindi, si concentrerà sul test per MAR.
Lavorerai con il consueto insieme di dati biopics. L'obiettivo è verificare se il numero di valori mancanti in earnings differisce in base al genere del soggetto. In questo esercizio, preparerai soltanto i dati per il t-test. Per prima cosa, creerai una variabile dummy che indichi la mancanza in earnings. Poi, la suddividerai per genere filtrando i dati per mantenere uno dei generi e quindi estraendo la variabile dummy con pull(). Per il filtraggio, può essere utile stampare in console la head() di biopics ed esaminare la variabile del genere.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Aggiungi un'altra variabile a
biopicschiamatamissing_earningsche siaTRUEseearningsè mancante eFALSEaltrimenti. - Crea un vettore dei valori
missing_earningsper i maschi e assegnalo amissing_earnings_males. - Crea un vettore dei valori
missing_earningsper le femmine e assegnalo amissing_earnings_females.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a dummy variable for missing earnings
biopics <- biopics %>%
___(missing_earnings = ___(___))
# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>%
___(___) %>%
___(___)
# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>%
___(___) %>%
___(___)