Tirer depuis une distribution conditionnelle

Appeler simplement predict() sur un modèle renverra toujours la même valeur pour les mêmes valeurs des prédicteurs. Cela entraîne une faible variabilité dans les données imputées. Pour l’augmenter, afin que l’imputation reproduise la variabilité des données d’origine, nous pouvons tirer depuis la distribution conditionnelle. Concrètement, au lieu de prédire systématiquement 1 dès que le modèle renvoie une probabilité supérieure à 0,5, nous pouvons tirer la prédiction d’une distribution binomiale définie par la probabilité renvoyée par le modèle.

Vous allez reprendre le code que vous avez écrit à l’exercice précédent. La ligne suivante a été supprimée :

  preds <- ifelse(preds >= 0.5, 1, 0)

Votre tâche est de la remplacer par un tirage dans une distribution binomiale. Une seule ligne de code suffit !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

Écrasez preds en échantillonnant depuis une distribution binomiale.
Passez la longueur de preds comme premier argument.
Définissez size à 1.
Fixez prob aux probabilités renvoyées par le modèle.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

 impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- is.na(df[imp_var])
  # Fit logistic regression mode
  logreg_model <- glm(formula, data = df, family = binomial)
  # Predict the response
  preds <- predict(logreg_model, type = "response")
  # Sample the predictions from binomial distribution
  preds <- ___(___, size = ___, prob = ___)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <- preds[missing_imp_var]
  return(df)
}

Modifier et exécuter le code

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez pourquoi les données manquantes peuvent poser un risque lors de l’analyse d’un jeu de données. Vous serez présenté aux trois mécanismes de données manquantes et apprendrez à les reconnaître à l’aide de tests statistiques et d’outils de visualisation.

Exercise 1: Données manquantes : ce qui peut mal se passer Exercise 2: Régression linéaire avec des données incomplètes Exercise 3: Analyser la sortie d’une régression Exercise 4: Comparer des modèles Exercise 5: Mécanismes des données manquantes Exercise 6: Reconnaître les mécanismes des données manquantes Exercise 7: Test t pour MAR : préparation des données Exercise 8: t-test pour MAR : interprétation Exercise 9: Visualiser les motifs de données manquantes Exercise 10: Graphique d’agrégation Exercise 11: Diagramme en épine (spine plot)Exercise 12: Graphique en mosaïque

Familiarisez-vous avec la taxonomie des méthodes d’imputation et apprenez trois techniques basées sur un donneur : l’imputation par la moyenne, le hot-deck et l’imputation par k plus proches voisins. Vous verrez ce qui se passe sous le capot pour comprendre leur fonctionnement, puis vous apprendrez à les appliquer à un jeu de données réel sur la météo tropicale. Au passage, vous découvrirez aussi des astuces utiles pour les rendre encore plus efficaces dans vos propres problèmes.

Exercise 1: Imputation par la moyenne Exercise 2: Sentir le danger de l’imputation par la moyenne Exercise 3: Imputation par la moyenne de la température Exercise 4: Évaluer la qualité de l’imputation avec un margin plot Exercise 5: Imputation par hot-deck Exercise 6: Hot-deck simple Exercise 7: Astuces hot-deck I : imputer au sein de domaines Exercise 8: Astuces hot-deck II : trier selon des variables corrélées Exercise 9: Imputation par k plus proches voisins Exercise 10: Choisir le nombre de voisins Exercise 11: Astuces kNN I : pondérer les donneurs Exercise 12: Astuces kNN II : trier les variables

Il est temps d’apprendre à utiliser des modèles statistiques et de Machine Learning, comme la régression linéaire, la régression logistique et les forêts aléatoires, pour imputer des données manquantes. Dans ce chapitre, vous examinerez comment les modèles font leurs prédictions et utiliserez ces connaissances pour tirer les valeurs imputées à partir de distributions conditionnelles. C’est essentiel pour garantir des imputations plus variées et plausibles, plus proches des données réelles.

Exercise 1: Approche d’imputation basée sur des modèles Exercise 2: Imputation par régression linéaire Exercise 3: Initialiser les valeurs manquantes et itérer sur les variables Exercise 4: Détecter la convergence Exercise 5: Reproduire la variabilité des données Exercise 6: Imputation par régression logistique Exercise 7: Tirer depuis une distribution conditionnelle

Exercice en cours

Exercise 8: Imputation basée sur des modèles avec plusieurs types de variables Exercise 9: Imputation par arbres de décision Exercise 10: Imputation avec des random forests Exercise 11: Erreurs d’imputation par variable Exercise 12: Compromis entre vitesse et précision

Les valeurs imputées ne sont pas gravées dans la pierre. Ce ne sont que des estimations, et toute estimation comporte une part d’incertitude. Dans ce dernier chapitre, vous verrez comment le bootstrapping et les équations en chaîne avec le package mice permettent d’intégrer l’incertitude d’imputation dans vos modèles et analyses afin de les rendre plus fiables et plus robustes.

Exercise 1: Imputations multiples par bootstrap Exercise 2: Regrouper l’imputation et la modélisation dans une fonction Exercise 3: Exécuter le bootstrap Exercise 4: Intervalles de confiance par bootstrapping Exercise 5: Imputation multiple par équations en chaîne Exercise 6: Le flux mice : mice - with - pool Exercise 7: Choisir des modèles par défaut Exercise 8: Utiliser une matrice de prédicteurs Exercise 9: Réunir le tout Exercise 10: Analyser les motifs de données manquantes Exercise 11: Imputer et inspecter les variables cibles Exercise 12: Inférence avec des données imputées Exercise 13: Remarques finales