IniziaInizia gratis

Racchiudere imputazione e modellazione in una funzione

Ogni volta che esegui un’analisi o un modello su dati imputati, dovresti tenere conto dell’incertezza dovuta all’imputazione. Eseguire un modello su un insieme di dati imputato una sola volta ignora il fatto che l’imputazione stima i valori mancanti con incertezza. Gli errori standard di un modello del genere tendono a essere troppo piccoli. La soluzione è la multiple imputation e un modo per implementarla è il bootstrapping.

Nei prossimi esercizi lavorerai con i dati già noti biopics. L’obiettivo è usare la multiple imputation via bootstrapping e la regressione lineare per verificare se, sulla base dei dati a disposizione, i film biografici con protagoniste femminili guadagnano meno di quelli su uomini.

Iniziamo scrivendo una funzione che crea un campione bootstrap, lo imputa e stima un modello di regressione lineare.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Istruzioni dell'esercizio

  • Fai lo slice di data per ricampionare le righe indicate da indices e assegna il risultato a data_boot.
  • Imputa il campione bootstrap data_boot con imputazione kNN usando 5 vicini e assegna il risultato a data_imp.
  • Stima un modello di regressione lineare su data_imp che spieghi earnings con sub_sex, sub_type e year.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}
Modifica ed esegui il codice