Visualiser les imputations

Analyser des imputations et choisir la meilleure demande beaucoup d’expérimentation. Il est essentiel de vous assurer que vos données ne deviennent pas biaisées lors de l’imputation. Dans ces deux derniers exercices, vous avez créé 4 imputations différentes à l’aide des imputations par moyenne, médiane, mode et valeur constante.

Dans cet exercice, vous allez créer un nuage de points pour les DataFrames que vous avez imputés précédemment. Pour cela, vous allez créer un dictionnaire des DataFrames dont les clés seront leurs titres.

Les DataFrames diabetes_mean, diabetes_median, diabetes_mode et diabetes_constant ont été chargés pour vous.

Cet exercice fait partie du cours

<cours>Gérer les données manquantes en Python</cours>

Voir le cours

Instructions de l’exercice

Créez 4 sous-graphiques en traçant une figure avec 2 lignes et 2 colonnes.
Créez le dictionnaire imputations en faisant correspondre chaque clé à son DataFrame.
Itérez sur axes et imputations, et tracez chaque DataFrame dans imputations.
Définissez la couleur sur la nullity et le titre de chaque sous-graphe sur le nom de l’imputation.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()

# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___, 
               'Most Frequent Imputation': ___, 'Constant Imputation': ___}

# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
    # Select and also set the title for a DataFrame
    imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter', 
                          alpha=0.5, c=___, cmap='rainbow', ax=ax, 
                          colorbar=False, title=___)
plt.show()

Modifier et exécuter le code