Betrouwbaarheidsintervallen annoteren
Je werk als data scientist met vervuilingsdata is legendarisch, en je weegt nu baanaanbiedingen af in zowel Cincinnati, Ohio als Indianapolis, Indiana. Je wilt zien of de SO2-niveaus significant verschillen tussen de twee steden en, specifieker, welke stad lagere niveaus heeft. Om dit te testen, besluit je te kijken naar de verschillen in de SO2-waarden van de steden (Indianapolis - Cincinnati) over meerdere jaren (aangeleverd als diffs_by_year).
In plaats van alleen een p-waarde te tonen voor een significant verschil tussen de steden, kies je ervoor om te kijken naar de 95%-betrouwbaarheidsintervallen (kolommen lower en upper) van de verschillen. Zo kun je zowel de omvang van de verschillen als eventuele trends door de jaren heen zien.
Deze oefening maakt deel uit van de cursus
Je datavisualisaties verbeteren in Python
Oefeninstructies
- Geef begin- en eindgrenzen (kolommen
lowerenupper) van je betrouwbaarheidsintervallen door aanplt.hlines(). - Zet de intervaldikte op
5. - Teken een verticale lijn die een verschil van
0weergeeft metplt.axvline(). - Geef de nul-lijn de kleur
'orangered'zodat die opvalt.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set start and ends according to intervals
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____',
linewidth = ____, color = 'steelblue', alpha = 0.7,
data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)
# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')
# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()