Grundlegende Konfidenzintervalle

Du bist Data Scientist bei einem Feuerwerkshersteller in Des Moines, Iowa. Du musst der Stadt darlegen, dass das große Feuerwerk deines Unternehmens der Luftqualität nicht geschadet hat. Dafür betrachtest du die durchschnittlichen Werte für Schadstoffe in der Woche nach dem 4. Juli und vergleichst sie mit Messungen nach deiner letzten Show. Indem du Konfidenzintervalle um die Mittelwerte zeigst, kannst du belegen, dass die aktuellen Messungen klar im normalen Bereich lagen.

Diese Daten sind als average_ests geladen, mit einer Zeile pro gemessenem Schadstoff.

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Anleitung zur Übung

Erstelle die unteren und oberen Grenzen des 95-%-Intervalls:
- Erzeuge die untere Grenze, indem du 1,96 Standardfehler ('std_err') vom 'mean' der Schätzungen subtrahierst.
- Erzeuge die obere Grenze, indem du 1,96 Standardfehler ('std_err') zum 'mean' der Schätzungen addierst.
Übergib pollutant als Facettierungsvariable an sns.FacetGrid() und entkopple die x-Achsen der Plots, damit die Intervalle gut skaliert sind.
Übergib die konstruierten Intervallgrenzen an die gemappte Funktion plt.hlines().

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Construct CI bounds for averages
average_ests['lower'] = average_ests['____'] - 1.96*average_ests['____']
average_ests['upper'] = average_ests['____'] + 1.96*average_ests['____']

# Setup a grid of plots, with non-shared x axes limits
g = sns.FacetGrid(average_ests, row = '____', ____ = False)

# Plot CI for average estimate
g.map(plt.hlines, 'y', '____', '____')

# Plot observed values for comparison and remove axes labels
g.map(plt.scatter, 'seen', 'y', color = 'orangered').set_ylabels('').set_xlabels('') 

plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wie zeigst du alle deine Daten, ohne dass Betrachter wichtige Punkte übersehen? Hier besprechen wir, wie du dein Publikum mit farblichen Hervorhebungen und Text durch die Daten führst. Außerdem stellen wir einen Datensatz zu häufigen Schadstoffwerten in den Vereinigten Staaten vor.

Exercise 1: Daten hervorheben Exercise 2: Einen Highlight hart codieren Exercise 3: Hervorhebung programmatisch erstellen Exercise 4: Gruppen vergleichen Exercise 5: Vergleich mit zwei KDEs Exercise 6: Deine KDEs verbessern Exercise 7: Beeswarms Exercise 8: Anmerkungen Exercise 9: Eine einfache Textannotation Exercise 10: Pfeil-Annotationen Exercise 11: Annotationen und Farbe kombinieren

Farbe ist ein mächtiges Werkzeug, um Werte in Visualisierungen zu codieren. Mit dieser Macht gehen jedoch auch Risiken einher. In diesem Kapitel sprechen wir darüber, wie du – abhängig vom Datentyp – eine passende Farbpalette für deine Visualisierung auswählst.

Exercise 1: Farbe in Visualisierungen Exercise 2: Überflüssige Farbe loswerden Exercise 3: Seaborns Balkendiagramme verbessern Exercise 4: Kontinuierliche Farbpaletten Exercise 5: Eine eigene kontinuierliche Palette erstellen Exercise 6: Eine Heatmap mit divergierender Palette anpassen Exercise 7: Palette an den Kontext anpassen Exercise 8: Kategorische Paletten Exercise 9: Eine eigene kategoriale Palette verwenden Exercise 10: Mit zu vielen Kategorien umgehen Exercise 11: Ordinale Kategorien einfärben Exercise 12: Die richtige Variable für die Farbkodierung wählen

Unsicherheit ist überall in der Data Science präsent, wird in Visualisierungen jedoch oft weggelassen, obwohl sie hineingehört. Hier wiederholen wir, was ein Konfidenzintervall ist und wie man es sowohl für Punktschätzungen als auch für kontinuierliche Funktionen darstellt. Zusätzlich besprechen wir die Bootstrap-Resampling-Technik zur Abschätzung von Unsicherheit und wie man sie sinnvoll visualisiert.

Exercise 1: Intervalle für Punktschätzungen Exercise 2: Grundlegende Konfidenzintervalle

Aktuelle Übung

Exercise 3: Konfidenzintervalle annotieren Exercise 4: Konfidenzbänder Exercise 5: Eine Konfidenzband erstellen Exercise 6: Viele Bänder trennen Exercise 7: Überlappende Bänder bereinigen Exercise 8: Über 95 % hinaus Exercise 9: 90-, 95- und 99-%-Intervalle Exercise 10: 90- und 95-%-Bänder Exercise 11: Bandstärke statt Farbe verwenden Exercise 12: Den Bootstrap visualisieren Exercise 13: Das Bootstrap-Histogramm Exercise 14: Bootstrap-Regressionen Exercise 15: Viele Bootstraps mit Beeswarm-Plots

Oft wird Visualisierung isoliert gelehrt, und Best Practices werden nur allgemein besprochen. In der Praxis musst du die Regeln je nach Situation anpassen. Von unaufgeräumten explorativen Visualisierungen bis zum Feinschliff bei Schriftgrößen des Endprodukts: In diesem Kapitel schauen wir uns an, wie du deine Visualisierungen in jeder Phase eines Data-Science-Workflows optimierst.

Exercise 1: Erste Erkundungen Exercise 2: Blick auf die Farmers-Market-Daten Exercise 3: Scatter-Matrix numerischer Spalten Exercise 4: Mit grundlegenden Transformationen tiefer einsteigen Exercise 5: Muster erkunden Exercise 6: Hängt die geografische Breite mit den offenen Monaten zusammen?Exercise 7: Welcher Bundesstaat ist am marktfreundlichsten?Exercise 8: Beliebtheit von Waren nach Bundesstaat Exercise 9: Visualisierungen effizient gestalten Exercise 10: Stapeln, um Trends zu finden Exercise 11: Einen Plot als Legende verwenden Exercise 12: Diagramme feinjustieren Exercise 13: Den Hintergrund aufräumen Exercise 14: Ein Diagramm neu mixen Exercise 15: Lesbarkeit erhöhen Exercise 16: Glückwunsch!