CommencerCommencer gratuitement

Annoter des intervalles de confiance

Votre travail de data scientist sur les données de pollution est devenu légendaire, et vous hésitez entre des offres à Cincinnati (Ohio) et Indianapolis (Indiana). Vous souhaitez vérifier si les niveaux de SO2 diffèrent significativement entre les deux villes, et surtout, laquelle présente des niveaux plus faibles. Pour cela, vous décidez d’examiner les différences de valeurs de SO2 entre les villes (Indianapolis - Cincinnati) sur plusieurs années (fournies dans diffs_by_year).

Plutôt que d’afficher uniquement une p-value indiquant une différence significative entre les villes, vous choisissez d’examiner les intervalles de confiance à 95 % (colonnes lower et upper) des différences. Cela vous permet d’observer l’ampleur des écarts ainsi que les tendances au fil des années.

Cet exercice fait partie du cours

Améliorer vos visualisations de données en Python

Afficher le cours

Instructions

  • Fournissez à plt.hlines() les bornes de début et de fin (colonnes lower et upper) de vos intervalles de confiance.
  • Réglez l’épaisseur de l’intervalle à 5.
  • Tracez une ligne verticale représentant une différence de 0 avec plt.axvline().
  • Colorez la ligne nulle en 'orangered' pour qu’elle ressorte bien.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()
Modifier et exécuter le code