CommencerCommencer gratuitement

Regrouper l’imputation et la modélisation dans une fonction

Dès que vous réalisez une analyse ou un modèle sur des données imputées, vous devez tenir compte de l’incertitude liée à l’imputation. Exécuter un modèle sur un jeu de données imputé une seule fois ignore le fait que l’imputation estime les valeurs manquantes avec une part d’incertitude. Les erreurs standards d’un tel modèle ont tendance à être trop faibles. La solution est l’imputation multiple, et une manière de l’appliquer est le bootstrapping.

Dans les exercices qui suivent, vous travaillerez avec les données bien connues biopics. L’objectif est d’utiliser l’imputation multiple par bootstrapping et la régression linéaire pour vérifier si, d’après les données disponibles, les films biographiques centrés sur des femmes gagnent moins que ceux sur des hommes.

Commençons par écrire une fonction qui crée un échantillon bootstrap, l’impute, puis ajuste un modèle de régression linéaire.

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Découpez data pour rééchantillonner les lignes indiquées par indices et affectez le résultat à data_boot.
  • Imputez l’échantillon bootstrap data_boot avec une imputation kNN en utilisant 5 voisins et affectez le résultat à data_imp.
  • Ajustez un modèle de régression linéaire sur data_imp qui explique earnings par sub_sex, sub_type et year.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}
Modifier et exécuter le code