Choisir des modèles par défaut
MICE crée un modèle d’imputation distinct pour chaque variable du jeu de données. Le type de modèle dépend du type de variable concernée. Une façon courante de spécifier les types de modèles à utiliser est de définir un modèle par défaut pour chacun des quatre types de variables.
Vous pouvez le faire en passant l’argument defaultMethod à mice(), qui doit être un vecteur de longueur 4 contenant les méthodes d’imputation par défaut pour :
- Les variables continues,
- Les variables binaires,
- Les variables catégorielles (facteurs non ordonnés),
- Les variables facteur ordonnées (facteurs ordonnés).
Dans cet exercice, vous allez exploiter la documentation de mice pour consulter la liste des méthodes disponibles et choisir celles que l’algorithme devra utiliser. Passons à la sélection de modèles !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Dans la RDocumentation renvoyée par
?mice, il y a un tableau contenant le mot-clé de chaque méthode. - Imputez les données
biopicsavecmice()en utilisant les méthodes par défaut suivantes, dans cet ordre : arbres de classification et de régression, analyse discriminante linéaire, predictive mean matching, modèle des cotes proportionnelles. - Affichez
biopics_multiimppour voir quelle méthode a été utilisée pour chaque variable.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Impute biopics using the methods specified in the instruction
biopics_multiimp <- ___(biopics, m = 20,
defaultMethod = ___)
# Print biopics_multiimp
print(biopics_multiimp)