Eenvoudige betrouwbaarheidsintervallen

Je bent data scientist bij een vuurwerkfabrikant in Des Moines, Iowa. Je moet de gemeente laten zien dat de grote vuurwerkshow van je bedrijf geen schade heeft toegebracht aan de luchtkwaliteit. Daarvoor kijk je naar de gemiddelde niveaus van verontreinigende stoffen in de week na 4 juli en hoe die zich verhouden tot metingen na je laatste show. Door betrouwbaarheidsintervallen rond de gemiddeldes te tonen, kun je laten zien dat de recente metingen ruim binnen de normale bandbreedte vallen.

Deze data is geladen als average_ests, met één rij per gemeten verontreinigende stof.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Bekijk cursus

Oefeninstructies

Maak de onder- en bovengrens van het 95%-interval:
- Maak de ondergrens door 1,96 standaardfouten ('std_err') van het 'mean' van de schattingen af te trekken.
- Maak de bovengrens door 1,96 standaardfouten ('std_err') bij het 'mean' van de schattingen op te tellen.
Geef pollutant door als de facetteringsvariabele aan sns.FacetGrid() en koppel de x-assen van de plots los zodat de intervallen goed schalen.
Geef de geconstrueerde intervalgrenzen door aan de gemapte functie plt.hlines().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Construct CI bounds for averages
average_ests['lower'] = average_ests['____'] - 1.96*average_ests['____']
average_ests['upper'] = average_ests['____'] + 1.96*average_ests['____']

# Setup a grid of plots, with non-shared x axes limits
g = sns.FacetGrid(average_ests, row = '____', ____ = False)

# Plot CI for average estimate
g.map(plt.hlines, 'y', '____', '____')

# Plot observed values for comparison and remove axes labels
g.map(plt.scatter, 'seen', 'y', color = 'orangered').set_ylabels('').set_xlabels('') 

plt.show()

Code bewerken en uitvoeren