Aan de slagGa gratis aan de slag

Betrouwbaarheidsintervallen annoteren

Je werk als data scientist met vervuilingsdata is legendarisch, en je weegt nu baanaanbiedingen af in zowel Cincinnati, Ohio als Indianapolis, Indiana. Je wilt zien of de SO2-niveaus significant verschillen tussen de twee steden en, specifieker, welke stad lagere niveaus heeft. Om dit te testen, besluit je te kijken naar de verschillen in de SO2-waarden van de steden (Indianapolis - Cincinnati) over meerdere jaren (aangeleverd als diffs_by_year).

In plaats van alleen een p-waarde te tonen voor een significant verschil tussen de steden, kies je ervoor om te kijken naar de 95%-betrouwbaarheidsintervallen (kolommen lower en upper) van de verschillen. Zo kun je zowel de omvang van de verschillen als eventuele trends door de jaren heen zien.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Cursus bekijken

Oefeninstructies

  • Geef begin- en eindgrenzen (kolommen lower en upper) van je betrouwbaarheidsintervallen door aan plt.hlines().
  • Zet de intervaldikte op 5.
  • Teken een verticale lijn die een verschil van 0 weergeeft met plt.axvline().
  • Geef de nul-lijn de kleur 'orangered' zodat die opvalt.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()
Code bewerken en uitvoeren