Comparer des tracés de densité

Les différentes imputations que vous avez réalisées précédemment peuvent être comparées graphiquement à l’aide de leurs tracés de densité. À partir de ces graphiques, vous pourrez analyser et identifier facilement l’ensemble de données dont la distribution est la plus proche de celle de l’ensemble original. Vous pourrez aussi voir en quoi une imputation peut introduire un biais.

Dans cet exercice, vous allez comparer les tracés de densité des DataFrames imputés pour diabetes que vous avez créés plus tôt.

Les DataFrames diabetes_cc, diabetes_mean_imputed, diabetes_knn_imputed et diabetes_mice_imputed ont déjà été chargés pour vous, ainsi que matplotlib.pyplot sous le nom plt.

Cet exercice fait partie du cours

<cours>Gérer les données manquantes en Python</cours>

Voir le cours

Instructions de l’exercice

Tracez un graphique de densité pour la colonne 'Skin_Fold' de chaque DataFrame.
Définissez les légendes en utilisant la liste labels.
Définissez le libellé de l’axe des x sur 'Skin Fold'.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Plot graphs of imputed DataFrames and the complete case
diabetes_cc['___'].___(___='___', c='red', linewidth=3)
diabetes_mean_imputed['___'].plot(___='___')
diabetes_knn_imputed['___'].plot(___='___')
diabetes_mice_imputed['___'].plot(___='___')

# Create labels for the four DataFrames
labels = ['Baseline (Complete Case)', 'Mean Imputation', 'KNN Imputation', 'MICE Imputation']
plt.legend(___)

# Set the x-label as Skin Fold
plt.xlabel('___')

plt.show()

Modifier et exécuter le code