Racchiudere imputazione e modellazione in una funzione
Ogni volta che esegui un’analisi o un modello su dati imputati, dovresti tenere conto dell’incertezza dovuta all’imputazione. Eseguire un modello su un insieme di dati imputato una sola volta ignora il fatto che l’imputazione stima i valori mancanti con incertezza. Gli errori standard di un modello del genere tendono a essere troppo piccoli. La soluzione è la multiple imputation e un modo per implementarla è il bootstrapping.
Nei prossimi esercizi lavorerai con i dati già noti biopics. L’obiettivo è usare la multiple imputation via bootstrapping e la regressione lineare per verificare se, sulla base dei dati a disposizione, i film biografici con protagoniste femminili guadagnano meno di quelli su uomini.
Iniziamo scrivendo una funzione che crea un campione bootstrap, lo imputa e stima un modello di regressione lineare.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Istruzioni dell'esercizio
- Fai lo slice di
dataper ricampionare le righe indicate daindicese assegna il risultato adata_boot. - Imputa il campione bootstrap
data_bootcon imputazione kNN usando 5 vicini e assegna il risultato adata_imp. - Stima un modello di regressione lineare su
data_impche spieghiearningsconsub_sex,sub_typeeyear.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}