Le flux mice : mice - with - pool
L’imputation multiple par équations en chaîne (MICE) permet d’estimer l’incertitude due à l’imputation en imputant plusieurs fois un même jeu de données avec une imputation basée sur des modèles, tout en tirant dans des distributions conditionnelles. Ainsi, chaque jeu de données imputé est légèrement différent. Ensuite, on réalise une analyse sur chacun d’eux et on regroupe les résultats, ce qui fournit les quantités d’intérêt, accompagnées d’intervalles de confiance qui reflètent l’incertitude d’imputation.
Dans cet exercice, vous allez pratiquer le flux MICE classique : mice() - with() - pool(). Vous effectuerez une analyse de régression sur les données biopics pour voir quelle profession du sujet, sub_type, est associée aux recettes de film les plus élevées. Jouons avec mice !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Chargez le package
miceet imputezbiopicsavecmice()en utilisant 5 imputations, en enregistrant le résultat dansbiopics_multiimp. - Ajustez un modèle de régression linéaire qui explique
earningsà l’aide deyearetsub_typepour chaque jeu de données imputé, et enregistrez le résultat danslm_multiimp. - Regroupez les modèles de régression sauvegardés dans
lm_multiimpavecpool(), et enregistrez le résultat danslm_pooled. - Résumez
lm_pooledde façon à produire des intervalles de confiance avec un niveau de confiance de 95 %.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)