Konfidenzintervalle annotieren

Deine Data-Science-Arbeit mit Verschmutzungsdaten ist legendär, und du wägest gerade Jobangebote in Cincinnati, Ohio, und Indianapolis, Indiana, ab. Du willst prüfen, ob sich die SO₂-Werte in den beiden Städten signifikant unterscheiden und vor allem, welche Stadt niedrigere Werte hat. Dafür schaust du dir die Unterschiede der SO₂-Werte der Städte an (Indianapolis minus Cincinnati) über mehrere Jahre hinweg (bereitgestellt als diffs_by_year).

Anstatt nur einen p-Wert für einen signifikanten Unterschied zwischen den Städten anzuzeigen, entscheidest du dich, die 95-%-Konfidenzintervalle (Spalten lower und upper) der Unterschiede zu betrachten. So siehst du sowohl die Größenordnung der Unterschiede als auch mögliche Trends über die Jahre.

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Anleitung zur Übung

Übergib plt.hlines() die Start- und Endgrenzen (Spalten lower und upper) deiner Konfidenzintervalle.
Setze die Intervallstärke auf 5.
Zeichne mit plt.axvline() eine vertikale Linie für einen Unterschied von 0.
Färbe die Null-Linie in 'orangered', damit sie hervorsticht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wie zeigst du alle deine Daten, ohne dass Betrachter wichtige Punkte übersehen? Hier besprechen wir, wie du dein Publikum mit farblichen Hervorhebungen und Text durch die Daten führst. Außerdem stellen wir einen Datensatz zu häufigen Schadstoffwerten in den Vereinigten Staaten vor.

Exercise 1: Daten hervorheben Exercise 2: Einen Highlight hart codieren Exercise 3: Hervorhebung programmatisch erstellen Exercise 4: Gruppen vergleichen Exercise 5: Vergleich mit zwei KDEs Exercise 6: Deine KDEs verbessern Exercise 7: Beeswarms Exercise 8: Anmerkungen Exercise 9: Eine einfache Textannotation Exercise 10: Pfeil-Annotationen Exercise 11: Annotationen und Farbe kombinieren

Farbe ist ein mächtiges Werkzeug, um Werte in Visualisierungen zu codieren. Mit dieser Macht gehen jedoch auch Risiken einher. In diesem Kapitel sprechen wir darüber, wie du – abhängig vom Datentyp – eine passende Farbpalette für deine Visualisierung auswählst.

Exercise 1: Farbe in Visualisierungen Exercise 2: Überflüssige Farbe loswerden Exercise 3: Seaborns Balkendiagramme verbessern Exercise 4: Kontinuierliche Farbpaletten Exercise 5: Eine eigene kontinuierliche Palette erstellen Exercise 6: Eine Heatmap mit divergierender Palette anpassen Exercise 7: Palette an den Kontext anpassen Exercise 8: Kategorische Paletten Exercise 9: Eine eigene kategoriale Palette verwenden Exercise 10: Mit zu vielen Kategorien umgehen Exercise 11: Ordinale Kategorien einfärben Exercise 12: Die richtige Variable für die Farbkodierung wählen

Unsicherheit ist überall in der Data Science präsent, wird in Visualisierungen jedoch oft weggelassen, obwohl sie hineingehört. Hier wiederholen wir, was ein Konfidenzintervall ist und wie man es sowohl für Punktschätzungen als auch für kontinuierliche Funktionen darstellt. Zusätzlich besprechen wir die Bootstrap-Resampling-Technik zur Abschätzung von Unsicherheit und wie man sie sinnvoll visualisiert.

Exercise 1: Intervalle für Punktschätzungen Exercise 2: Grundlegende Konfidenzintervalle Exercise 3: Konfidenzintervalle annotieren

Aktuelle Übung

Exercise 4: Konfidenzbänder Exercise 5: Eine Konfidenzband erstellen Exercise 6: Viele Bänder trennen Exercise 7: Überlappende Bänder bereinigen Exercise 8: Über 95 % hinaus Exercise 9: 90-, 95- und 99-%-Intervalle Exercise 10: 90- und 95-%-Bänder Exercise 11: Bandstärke statt Farbe verwenden Exercise 12: Den Bootstrap visualisieren Exercise 13: Das Bootstrap-Histogramm Exercise 14: Bootstrap-Regressionen Exercise 15: Viele Bootstraps mit Beeswarm-Plots

Oft wird Visualisierung isoliert gelehrt, und Best Practices werden nur allgemein besprochen. In der Praxis musst du die Regeln je nach Situation anpassen. Von unaufgeräumten explorativen Visualisierungen bis zum Feinschliff bei Schriftgrößen des Endprodukts: In diesem Kapitel schauen wir uns an, wie du deine Visualisierungen in jeder Phase eines Data-Science-Workflows optimierst.

Exercise 1: Erste Erkundungen Exercise 2: Blick auf die Farmers-Market-Daten Exercise 3: Scatter-Matrix numerischer Spalten Exercise 4: Mit grundlegenden Transformationen tiefer einsteigen Exercise 5: Muster erkunden Exercise 6: Hängt die geografische Breite mit den offenen Monaten zusammen?Exercise 7: Welcher Bundesstaat ist am marktfreundlichsten?Exercise 8: Beliebtheit von Waren nach Bundesstaat Exercise 9: Visualisierungen effizient gestalten Exercise 10: Stapeln, um Trends zu finden Exercise 11: Einen Plot als Legende verwenden Exercise 12: Diagramme feinjustieren Exercise 13: Den Hintergrund aufräumen Exercise 14: Ein Diagramm neu mixen Exercise 15: Lesbarkeit erhöhen Exercise 16: Glückwunsch!