Regrouper l’imputation et la modélisation dans une fonction
Dès que vous réalisez une analyse ou un modèle sur des données imputées, vous devez tenir compte de l’incertitude liée à l’imputation. Exécuter un modèle sur un jeu de données imputé une seule fois ignore le fait que l’imputation estime les valeurs manquantes avec une part d’incertitude. Les erreurs standards d’un tel modèle ont tendance à être trop faibles. La solution est l’imputation multiple, et une manière de l’appliquer est le bootstrapping.
Dans les exercices qui suivent, vous travaillerez avec les données bien connues biopics. L’objectif est d’utiliser l’imputation multiple par bootstrapping et la régression linéaire pour vérifier si, d’après les données disponibles, les films biographiques centrés sur des femmes gagnent moins que ceux sur des hommes.
Commençons par écrire une fonction qui crée un échantillon bootstrap, l’impute, puis ajuste un modèle de régression linéaire.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Découpez
datapour rééchantillonner les lignes indiquées parindiceset affectez le résultat àdata_boot. - Imputez l’échantillon bootstrap
data_bootavec une imputation kNN en utilisant 5 voisins et affectez le résultat àdata_imp. - Ajustez un modèle de régression linéaire sur
data_impqui expliqueearningsparsub_sex,sub_typeetyear.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}