Comparer des tracés de densité
Les différentes imputations que vous avez réalisées précédemment peuvent être comparées graphiquement à l’aide de leurs tracés de densité. À partir de ces graphiques, vous pourrez analyser et identifier facilement l’ensemble de données dont la distribution est la plus proche de celle de l’ensemble original. Vous pourrez aussi voir en quoi une imputation peut introduire un biais.
Dans cet exercice, vous allez comparer les tracés de densité des DataFrames imputés pour diabetes que vous avez créés plus tôt.
Les DataFrames diabetes_cc, diabetes_mean_imputed, diabetes_knn_imputed et diabetes_mice_imputed ont déjà été chargés pour vous, ainsi que matplotlib.pyplot sous le nom plt.
Cet exercice fait partie du cours
Gérer les données manquantes en Python
Instructions
- Tracez un graphique de densité pour la colonne
'Skin_Fold'de chaque DataFrame. - Définissez les légendes en utilisant la liste
labels. - Définissez le libellé de l’axe des x sur
'Skin Fold'.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot graphs of imputed DataFrames and the complete case
diabetes_cc['___'].___(___='___', c='red', linewidth=3)
diabetes_mean_imputed['___'].plot(___='___')
diabetes_knn_imputed['___'].plot(___='___')
diabetes_mice_imputed['___'].plot(___='___')
# Create labels for the four DataFrames
labels = ['Baseline (Complete Case)', 'Mean Imputation', 'KNN Imputation', 'MICE Imputation']
plt.legend(___)
# Set the x-label as Skin Fold
plt.xlabel('___')
plt.show()