Konfidenzintervalle annotieren
Deine Data-Science-Arbeit mit Verschmutzungsdaten ist legendär, und du wägest gerade Jobangebote in Cincinnati, Ohio, und Indianapolis, Indiana, ab. Du willst prüfen, ob sich die SO2-Werte in den beiden Städten signifikant unterscheiden und vor allem, welche Stadt niedrigere Werte hat. Dafür schaust du dir die Unterschiede der SO2-Werte der Städte an (Indianapolis minus Cincinnati) über mehrere Jahre hinweg (bereitgestellt als diffs_by_year).
Anstatt nur einen p-Wert für einen signifikanten Unterschied zwischen den Städten anzuzeigen, entscheidest du dich, die 95-%-Konfidenzintervalle (Spalten lower und upper) der Unterschiede zu betrachten. So siehst du sowohl die Größenordnung der Unterschiede als auch mögliche Trends über die Jahre.
Diese Übung ist Teil des Kurses
So verbesserst du deine Datenvisualisierungen in Python
Anleitung zur Übung
- Übergib
plt.hlines()die Start- und Endgrenzen (Spaltenlowerundupper) deiner Konfidenzintervalle. - Setze die Intervallstärke auf
5. - Zeichne mit
plt.axvline()eine vertikale Linie für einen Unterschied von0. - Färbe die Null-Linie in
'orangered', damit sie hervorsticht.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set start and ends according to intervals
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____',
linewidth = ____, color = 'steelblue', alpha = 0.7,
data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)
# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')
# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()