t-test per MAR: preparazione dei dati

Ottimo lavoro nel classificare i meccanismi dei dati mancanti nell'esercizio precedente! Tra i tre, MAR è probabilmente il più importante da individuare, perché molti metodi di imputazione assumono che i dati siano MAR. Questo esercizio, quindi, si concentrerà sul test per MAR.

Lavorerai con il consueto insieme di dati biopics. L'obiettivo è verificare se il numero di valori mancanti in earnings differisce in base al genere del soggetto. In questo esercizio, preparerai soltanto i dati per il t-test. Per prima cosa, creerai una variabile dummy che indichi la mancanza in earnings. Poi, la suddividerai per genere filtrando i dati per mantenere uno dei generi e quindi estraendo la variabile dummy con pull(). Per il filtraggio, può essere utile stampare in console la head() di biopics ed esaminare la variabile del genere.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza corso

Istruzioni dell'esercizio

Aggiungi un'altra variabile a biopics chiamata missing_earnings che sia TRUE se earnings è mancante e FALSE altrimenti.
Crea un vettore dei valori missing_earnings per i maschi e assegnalo a missing_earnings_males.
Crea un vettore dei valori missing_earnings per le femmine e assegnalo a missing_earnings_females.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo scoprirai perché i dati mancanti possono rappresentare un rischio quando analizzi un insieme di dati. Ti verranno presentati i tre meccanismi dei dati mancanti e imparerai a riconoscerli usando test statistici e strumenti di visualizzazione.

Exercise 1: Dati mancanti: cosa può andare storto Exercise 2: Regressione lineare con dati incompleti Exercise 3: Analizzare l'output della regressione Exercise 4: Confrontare i modelli Exercise 5: Meccanismi dei dati mancanti Exercise 6: Riconoscere i meccanismi dei dati mancanti Exercise 7: t-test per MAR: preparazione dei dati

Esercizio attuale

Exercise 8: t-test per MAR: interpretazione Exercise 9: Visualizzare i pattern dei dati mancanti Exercise 10: Grafico di aggregazione Exercise 11: Spine plot Exercise 12: Grafico a mosaico

Conosci la tassonomia dei metodi di imputazione e impara tre tecniche basate su donatori: imputazione con media, hot-deck e k-Nearest-Neighbors. Guarderai sotto il cofano per vedere come funzionano questi metodi, per poi imparare ad applicarli a un insieme di dati meteorologici tropicali reali. Lungo il percorso, scoprirai anche trucchi utili per farli funzionare ancora meglio sui tuoi problemi.

Exercise 1: Imputazione con media Exercise 2: Capire i rischi della imputazione con la media Exercise 3: Imputare la temperatura con la media Exercise 4: Valutare la qualità dell'imputazione con il margin plot Exercise 5: Imputazione hot-deck Exercise 6: Hot-deck semplice Exercise 7: Hot-deck: trucchi e consigli I — imputazione per domini Exercise 8: Hot-deck: trucchi e consigli II — ordinare per variabili correlate Exercise 9: Imputazione con k-Nearest Neighbors Exercise 10: Scegliere il numero di vicini Exercise 11: kNN: trucchi e consigli I — pesare i donatori Exercise 12: Trucchi e consigli per kNN II: ordinare le variabili

È il momento di imparare a usare modelli statistici e di Machine Learning, come regressione lineare, regressione logistica e random forests, per imputare i dati mancanti. In questo capitolo analizzerai come i modelli producono le loro previsioni e userai questa conoscenza per estrarre i valori imputati da distribuzioni condizionali. Questo è importante perché garantisce imputazioni più varie e plausibili, rendendole più simili ai dati reali.

Exercise 1: Approccio di imputazione basato su modello Exercise 2: Imputazione con regressione lineare Exercise 3: Inizializzare i valori mancanti e iterare sulle variabili Exercise 4: Rilevare la convergenza Exercise 5: Replica della variabilità dei dati Exercise 6: Imputazione con regressione logistica Exercise 7: Estrazione dalla distribuzione condizionata Exercise 8: Imputazione basata su modelli con variabili di tipi diversi Exercise 9: Imputazione basata su alberi Exercise 10: Imputazione con random forest Exercise 11: Errori di imputazione per variabile Exercise 12: Compromesso tra velocità e accuratezza

I valori imputati non sono scolpiti nella pietra. Sono solo stime, e le stime comportano una certa incertezza. In questo capitolo finale scoprirai come il bootstrapping e le equazioni concatenate con il pacchetto mice possono essere usati per incorporare l’incertezza dell’imputazione nei tuoi modelli e nelle tue analisi, rendendoli più affidabili e robusti.

Exercise 1: Imputazione multipla con bootstrapping Exercise 2: Racchiudere imputazione e modellazione in una funzione Exercise 3: Eseguire il bootstrap Exercise 4: Intervalli di confidenza con bootstrapping Exercise 5: Imputazione multipla con equazioni a catena Exercise 6: Il flusso di mice: mice - with - pool Exercise 7: Scelta dei modelli predefiniti Exercise 8: Uso della matrice dei predittori Exercise 9: Mettiamo tutto insieme Exercise 10: Analizzare i pattern di dati mancanti Exercise 11: Imputazione e ispezione degli esiti Exercise 12: Inferenza con dati imputati Exercise 13: Considerazioni finali