Régression linéaire avec des données incomplètes
Les données manquantes sont un problème courant, et bien les traiter est essentiel. Ignorer les valeurs manquantes ou les compléter de façon inappropriée peut conduire les modèles à se comporter de manière inattendue et biaiser les prédictions comme les inférences.
Dans ce chapitre, vous travaillerez avec le jeu de données biopics. Il contient des informations sur un certain nombre de films biographiques, notamment leurs recettes, les caractéristiques des personnes représentées, ainsi que d’autres variables. Cependant, certaines valeurs sont manquantes. Les données originales proviennent du package R fivethirtyeight, mais, dans ce cours, vous utiliserez une version légèrement prétraitée.
Dans cet exercice, vous allez découvrir le jeu de données et ajuster un modèle de régression linéaire pour expliquer les recettes d’un film. Commençons !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print first 10 observations
___(biopics, ___)