Betrouwbaarheidsintervallen annoteren

Je werk als data scientist met vervuilingsdata is legendarisch, en je weegt nu baanaanbiedingen af in zowel Cincinnati, Ohio als Indianapolis, Indiana. Je wilt zien of de SO₂-niveaus significant verschillen tussen de twee steden en, specifieker, welke stad lagere niveaus heeft. Om dit te testen, besluit je te kijken naar de verschillen in de SO₂-waarden van de steden (Indianapolis - Cincinnati) over meerdere jaren (aangeleverd als diffs_by_year).

In plaats van alleen een p-waarde te tonen voor een significant verschil tussen de steden, kies je ervoor om te kijken naar de 95%-betrouwbaarheidsintervallen (kolommen lower en upper) van de verschillen. Zo kun je zowel de omvang van de verschillen als eventuele trends door de jaren heen zien.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Bekijk cursus

Oefeninstructies

Geef begin- en eindgrenzen (kolommen lower en upper) van je betrouwbaarheidsintervallen door aan plt.hlines().
Zet de intervaldikte op 5.
Teken een verticale lijn die een verschil van 0 weergeeft met plt.axvline().
Geef de nul-lijn de kleur 'orangered' zodat die opvalt.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()

Code bewerken en uitvoeren