CommencerCommencer gratuitement

Le flux mice : mice - with - pool

L’imputation multiple par équations en chaîne (MICE) permet d’estimer l’incertitude due à l’imputation en imputant plusieurs fois un même jeu de données avec une imputation basée sur des modèles, tout en tirant dans des distributions conditionnelles. Ainsi, chaque jeu de données imputé est légèrement différent. Ensuite, on réalise une analyse sur chacun d’eux et on regroupe les résultats, ce qui fournit les quantités d’intérêt, accompagnées d’intervalles de confiance qui reflètent l’incertitude d’imputation.

Dans cet exercice, vous allez pratiquer le flux MICE classique : mice() - with() - pool(). Vous effectuerez une analyse de régression sur les données biopics pour voir quelle profession du sujet, sub_type, est associée aux recettes de film les plus élevées. Jouons avec mice !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Chargez le package mice et imputez biopics avec mice() en utilisant 5 imputations, en enregistrant le résultat dans biopics_multiimp.
  • Ajustez un modèle de régression linéaire qui explique earnings à l’aide de year et sub_type pour chaque jeu de données imputé, et enregistrez le résultat dans lm_multiimp.
  • Regroupez les modèles de régression sauvegardés dans lm_multiimp avec pool(), et enregistrez le résultat dans lm_pooled.
  • Résumez lm_pooled de façon à produire des intervalles de confiance avec un niveau de confiance de 95 %.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)
Modifier et exécuter le code