Annoter des intervalles de confiance
Votre travail de data scientist sur les données de pollution est devenu légendaire, et vous hésitez entre des offres à Cincinnati (Ohio) et Indianapolis (Indiana). Vous souhaitez vérifier si les niveaux de SO2 diffèrent significativement entre les deux villes, et surtout, laquelle présente des niveaux plus faibles. Pour cela, vous décidez d’examiner les différences de valeurs de SO2 entre les villes (Indianapolis - Cincinnati) sur plusieurs années (fournies dans diffs_by_year).
Plutôt que d’afficher uniquement une p-value indiquant une différence significative entre les villes, vous choisissez d’examiner les intervalles de confiance à 95 % (colonnes lower et upper) des différences. Cela vous permet d’observer l’ampleur des écarts ainsi que les tendances au fil des années.
Cet exercice fait partie du cours
Améliorer vos visualisations de données en Python
Instructions
- Fournissez à
plt.hlines()les bornes de début et de fin (colonnesloweretupper) de vos intervalles de confiance. - Réglez l’épaisseur de l’intervalle à
5. - Tracez une ligne verticale représentant une différence de
0avecplt.axvline(). - Colorez la ligne nulle en
'orangered'pour qu’elle ressorte bien.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set start and ends according to intervals
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____',
linewidth = ____, color = 'steelblue', alpha = 0.7,
data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)
# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')
# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()