Racchiudere imputazione e modellazione in una funzione

Ogni volta che esegui un’analisi o un modello su dati imputati, dovresti tenere conto dell’incertezza dovuta all’imputazione. Eseguire un modello su un insieme di dati imputato una sola volta ignora il fatto che l’imputazione stima i valori mancanti con incertezza. Gli errori standard di un modello del genere tendono a essere troppo piccoli. La soluzione è la multiple imputation e un modo per implementarla è il bootstrapping.

Nei prossimi esercizi lavorerai con i dati già noti biopics. L’obiettivo è usare la multiple imputation via bootstrapping e la regressione lineare per verificare se, sulla base dei dati a disposizione, i film biografici con protagoniste femminili guadagnano meno di quelli su uomini.

Iniziamo scrivendo una funzione che crea un campione bootstrap, lo imputa e stima un modello di regressione lineare.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza corso

Istruzioni dell'esercizio

Fai lo slice di data per ricampionare le righe indicate da indices e assegna il risultato a data_boot.
Imputa il campione bootstrap data_boot con imputazione kNN usando 5 vicini e assegna il risultato a data_imp.
Stima un modello di regressione lineare su data_imp che spieghi earnings con sub_sex, sub_type e year.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo scoprirai perché i dati mancanti possono rappresentare un rischio quando analizzi un insieme di dati. Ti verranno presentati i tre meccanismi dei dati mancanti e imparerai a riconoscerli usando test statistici e strumenti di visualizzazione.

Exercise 1: Dati mancanti: cosa può andare storto Exercise 2: Regressione lineare con dati incompleti Exercise 3: Analizzare l'output della regressione Exercise 4: Confrontare i modelli Exercise 5: Meccanismi dei dati mancanti Exercise 6: Riconoscere i meccanismi dei dati mancanti Exercise 7: t-test per MAR: preparazione dei dati Exercise 8: t-test per MAR: interpretazione Exercise 9: Visualizzare i pattern dei dati mancanti Exercise 10: Grafico di aggregazione Exercise 11: Spine plot Exercise 12: Grafico a mosaico

Conosci la tassonomia dei metodi di imputazione e impara tre tecniche basate su donatori: imputazione con media, hot-deck e k-Nearest-Neighbors. Guarderai sotto il cofano per vedere come funzionano questi metodi, per poi imparare ad applicarli a un insieme di dati meteorologici tropicali reali. Lungo il percorso, scoprirai anche trucchi utili per farli funzionare ancora meglio sui tuoi problemi.

Exercise 1: Imputazione con media Exercise 2: Capire i rischi della imputazione con la media Exercise 3: Imputare la temperatura con la media Exercise 4: Valutare la qualità dell'imputazione con il margin plot Exercise 5: Imputazione hot-deck Exercise 6: Hot-deck semplice Exercise 7: Hot-deck: trucchi e consigli I — imputazione per domini Exercise 8: Hot-deck: trucchi e consigli II — ordinare per variabili correlate Exercise 9: Imputazione con k-Nearest Neighbors Exercise 10: Scegliere il numero di vicini Exercise 11: kNN: trucchi e consigli I — pesare i donatori Exercise 12: Trucchi e consigli per kNN II: ordinare le variabili

È il momento di imparare a usare modelli statistici e di Machine Learning, come regressione lineare, regressione logistica e random forests, per imputare i dati mancanti. In questo capitolo analizzerai come i modelli producono le loro previsioni e userai questa conoscenza per estrarre i valori imputati da distribuzioni condizionali. Questo è importante perché garantisce imputazioni più varie e plausibili, rendendole più simili ai dati reali.

Exercise 1: Approccio di imputazione basato su modello Exercise 2: Imputazione con regressione lineare Exercise 3: Inizializzare i valori mancanti e iterare sulle variabili Exercise 4: Rilevare la convergenza Exercise 5: Replica della variabilità dei dati Exercise 6: Imputazione con regressione logistica Exercise 7: Estrazione dalla distribuzione condizionata Exercise 8: Imputazione basata su modelli con variabili di tipi diversi Exercise 9: Imputazione basata su alberi Exercise 10: Imputazione con random forest Exercise 11: Errori di imputazione per variabile Exercise 12: Compromesso tra velocità e accuratezza

I valori imputati non sono scolpiti nella pietra. Sono solo stime, e le stime comportano una certa incertezza. In questo capitolo finale scoprirai come il bootstrapping e le equazioni concatenate con il pacchetto mice possono essere usati per incorporare l’incertezza dell’imputazione nei tuoi modelli e nelle tue analisi, rendendoli più affidabili e robusti.

Exercise 1: Imputazione multipla con bootstrapping Exercise 2: Racchiudere imputazione e modellazione in una funzione

Esercizio attuale

Exercise 3: Eseguire il bootstrap Exercise 4: Intervalli di confidenza con bootstrapping Exercise 5: Imputazione multipla con equazioni a catena Exercise 6: Il flusso di mice: mice - with - pool Exercise 7: Scelta dei modelli predefiniti Exercise 8: Uso della matrice dei predittori Exercise 9: Mettiamo tutto insieme Exercise 10: Analizzare i pattern di dati mancanti Exercise 11: Imputazione e ispezione degli esiti Exercise 12: Inferenza con dati imputati Exercise 13: Considerazioni finali