Analyser le résumé du modèle linéaire
L’analyse des performances des différents modèles imputés est l’une des étapes les plus importantes lorsque vous traitez des données manquantes. Elle détermine le type de DataFrame imputé sur lequel vous pouvez vous appuyer. Pour cette analyse, vous pouvez ajuster un modèle de régression linéaire sur le DataFrame imputé et examiner divers paramètres qui influencent le choix du type d’imputation.
Dans cet exercice, le DataFrame diabetes_cc a déjà été chargé ; il s’agit du jeu de données « complete case » du DataFrame sur le diabète. Ce complete case sert de base de comparaison avec les autres DataFrames imputés. Vous utiliserez le package statsmodels.api chargé sous le nom sm pour créer un modèle de régression linéaire et générer des résumés.
Cet exercice fait partie du cours
Gérer les données manquantes en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add constant to X and set X & y values to fit linear model
X = sm.add_constant(___)
y = ___
lm = sm.OLS(y, X).fit()