CommencerCommencer gratuitement

Intervalles de confiance de base

Vous êtes data scientist pour un fabricant de feux d’artifice à Des Moines, dans l’Iowa. Vous devez démontrer à la ville que le grand feu d’artifice de votre entreprise n’a pas dégradé la qualité de l’air. Pour cela, vous examinez les niveaux moyens de polluants durant la semaine qui suit le 4 juillet et vous les comparez aux mesures effectuées après votre dernier spectacle. En affichant des intervalles de confiance autour des moyennes, vous pouvez montrer que les dernières mesures se situent bien dans la plage normale.

Ces données sont chargées dans average_ests, avec une ligne par polluant mesuré.

Cet exercice fait partie du cours

Améliorer vos visualisations de données en Python

Afficher le cours

Instructions

  • Créez les bornes inférieure et supérieure de l’intervalle à 95 % :

    • Créez la borne inférieure en soustrayant 1,96 erreurs standards ('std_err') à la 'mean' des estimations.
    • Créez la borne supérieure en ajoutant 1,96 erreurs standards ('std_err') à la 'mean' des estimations.
  • Passez pollutant comme variable de facettage à sns.FacetGrid() et désolidarisez les axes x des graphiques afin que les intervalles soient bien dimensionnés.

  • Transmettez les bornes d’intervalle construites à la fonction mappée plt.hlines().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Construct CI bounds for averages
average_ests['lower'] = average_ests['____'] - 1.96*average_ests['____']
average_ests['upper'] = average_ests['____'] + 1.96*average_ests['____']

# Setup a grid of plots, with non-shared x axes limits
g = sns.FacetGrid(average_ests, row = '____', ____ = False)

# Plot CI for average estimate
g.map(plt.hlines, 'y', '____', '____')

# Plot observed values for comparison and remove axes labels
g.map(plt.scatter, 'seen', 'y', color = 'orangered').set_ylabels('').set_xlabels('') 

plt.show()
Modifier et exécuter le code