Visualiser les imputations
Analyser des imputations et choisir la meilleure demande beaucoup d’expérimentation. Il est essentiel de vous assurer que vos données ne deviennent pas biaisées lors de l’imputation. Dans ces deux derniers exercices, vous avez créé 4 imputations différentes à l’aide des imputations par moyenne, médiane, mode et valeur constante.
Dans cet exercice, vous allez créer un nuage de points pour les DataFrames que vous avez imputés précédemment. Pour cela, vous allez créer un dictionnaire des DataFrames dont les clés seront leurs titres.
Les DataFrames diabetes_mean, diabetes_median, diabetes_mode et diabetes_constant ont été chargés pour vous.
Cet exercice fait partie du cours
Gérer les données manquantes en Python
Instructions
- Créez 4 sous-graphiques en traçant une figure avec 2 lignes et 2 colonnes.
- Créez le dictionnaire
imputationsen faisant correspondre chaque clé à son DataFrame. - Itérez sur
axesetimputations, et tracez chaque DataFrame dansimputations. - Définissez la couleur sur la
nullityet le titre de chaque sous-graphe sur le nom de l’imputation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()