Eenvoudige betrouwbaarheidsintervallen
Je bent data scientist bij een vuurwerkfabrikant in Des Moines, Iowa. Je moet de gemeente laten zien dat de grote vuurwerkshow van je bedrijf geen schade heeft toegebracht aan de luchtkwaliteit. Daarvoor kijk je naar de gemiddelde niveaus van verontreinigende stoffen in de week na 4 juli en hoe die zich verhouden tot metingen na je laatste show. Door betrouwbaarheidsintervallen rond de gemiddeldes te tonen, kun je laten zien dat de recente metingen ruim binnen de normale bandbreedte vallen.
Deze data is geladen als average_ests, met één rij per gemeten verontreinigende stof.
Deze oefening maakt deel uit van de cursus
Je datavisualisaties verbeteren in Python
Oefeninstructies
Maak de onder- en bovengrens van het 95%-interval:
- Maak de ondergrens door 1,96 standaardfouten (
'std_err') van het'mean'van de schattingen af te trekken. - Maak de bovengrens door 1,96 standaardfouten (
'std_err') bij het'mean'van de schattingen op te tellen.
- Maak de ondergrens door 1,96 standaardfouten (
Geef
pollutantdoor als de facetteringsvariabele aansns.FacetGrid()en koppel de x-assen van de plots los zodat de intervallen goed schalen.Geef de geconstrueerde intervalgrenzen door aan de gemapte functie
plt.hlines().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Construct CI bounds for averages
average_ests['lower'] = average_ests['____'] - 1.96*average_ests['____']
average_ests['upper'] = average_ests['____'] + 1.96*average_ests['____']
# Setup a grid of plots, with non-shared x axes limits
g = sns.FacetGrid(average_ests, row = '____', ____ = False)
# Plot CI for average estimate
g.map(plt.hlines, 'y', '____', '____')
# Plot observed values for comparison and remove axes labels
g.map(plt.scatter, 'seen', 'y', color = 'orangered').set_ylabels('').set_xlabels('')
plt.show()