90-, 95- und 99-%-Intervalle

Du bist Data Scientist bei einem Outdoor-Abenteuerunternehmen in Fairbanks, Alaska. In letzter Zeit gab es bei Kundinnen und Kunden Probleme mit SO₂-Verschmutzung, was zu teuren Stornierungen führte. Das Unternehmen hat Sensoren für CO, NO₂ und O₃, aber nicht für SO₂-Werte.

Du hast ein Modell gebaut, das SO₂-Werte auf Basis der Werte der Schadstoffe mit Sensoren vorhersagt (geladen als pollution_model, ein statsmodels-Objekt). Du willst untersuchen, welcher Schadstoffwert den größten Einfluss auf die SO₂-Vorhersage deines Modells hat. So weißt du, auf welche Schadstoffwerte du bei der Planung von Outdoor-Touren besonders achten solltest. Um möglichst viele Informationen in deinem Bericht zu vermitteln, zeige mehrere Ebenen von Unsicherheit für die Modellschätzungen.

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Anleitung zur Übung

Trage die passenden Prozentwerte für die Intervallbreite (aus 90, 95 und 99 %) entsprechend der Werteliste in alpha ein.
Färbe im for-Loop das Intervall mit seiner zugewiesenen color.
Übergebe den Prozentwert width aus dem Loop an plt.hlines(), um die Legende zu beschriften.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Add interval percent widths
alphas = [     0.01,  0.05,   0.1] 
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']

for alpha, color, width in zip(alphas, colors, widths):
    # Grab confidence interval
    conf_ints = pollution_model.conf_int(alpha)
    
    # Pass current interval color and legend label to plot
    plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
               colors = ____, ____ = width, linewidth = 10) 

# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')

plt.legend()
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wie zeigst du alle deine Daten, ohne dass Betrachter wichtige Punkte übersehen? Hier besprechen wir, wie du dein Publikum mit farblichen Hervorhebungen und Text durch die Daten führst. Außerdem stellen wir einen Datensatz zu häufigen Schadstoffwerten in den Vereinigten Staaten vor.

Exercise 1: Daten hervorheben Exercise 2: Einen Highlight hart codieren Exercise 3: Hervorhebung programmatisch erstellen Exercise 4: Gruppen vergleichen Exercise 5: Vergleich mit zwei KDEs Exercise 6: Deine KDEs verbessern Exercise 7: Beeswarms Exercise 8: Anmerkungen Exercise 9: Eine einfache Textannotation Exercise 10: Pfeil-Annotationen Exercise 11: Annotationen und Farbe kombinieren

Farbe ist ein mächtiges Werkzeug, um Werte in Visualisierungen zu codieren. Mit dieser Macht gehen jedoch auch Risiken einher. In diesem Kapitel sprechen wir darüber, wie du – abhängig vom Datentyp – eine passende Farbpalette für deine Visualisierung auswählst.

Exercise 1: Farbe in Visualisierungen Exercise 2: Überflüssige Farbe loswerden Exercise 3: Seaborns Balkendiagramme verbessern Exercise 4: Kontinuierliche Farbpaletten Exercise 5: Eine eigene kontinuierliche Palette erstellen Exercise 6: Eine Heatmap mit divergierender Palette anpassen Exercise 7: Palette an den Kontext anpassen Exercise 8: Kategorische Paletten Exercise 9: Eine eigene kategoriale Palette verwenden Exercise 10: Mit zu vielen Kategorien umgehen Exercise 11: Ordinale Kategorien einfärben Exercise 12: Die richtige Variable für die Farbkodierung wählen

Unsicherheit ist überall in der Data Science präsent, wird in Visualisierungen jedoch oft weggelassen, obwohl sie hineingehört. Hier wiederholen wir, was ein Konfidenzintervall ist und wie man es sowohl für Punktschätzungen als auch für kontinuierliche Funktionen darstellt. Zusätzlich besprechen wir die Bootstrap-Resampling-Technik zur Abschätzung von Unsicherheit und wie man sie sinnvoll visualisiert.

Exercise 1: Intervalle für Punktschätzungen Exercise 2: Grundlegende Konfidenzintervalle Exercise 3: Konfidenzintervalle annotieren Exercise 4: Konfidenzbänder Exercise 5: Eine Konfidenzband erstellen Exercise 6: Viele Bänder trennen Exercise 7: Überlappende Bänder bereinigen Exercise 8: Über 95 % hinaus Exercise 9: 90-, 95- und 99-%-Intervalle

Aktuelle Übung

Exercise 10: 90- und 95-%-Bänder Exercise 11: Bandstärke statt Farbe verwenden Exercise 12: Den Bootstrap visualisieren Exercise 13: Das Bootstrap-Histogramm Exercise 14: Bootstrap-Regressionen Exercise 15: Viele Bootstraps mit Beeswarm-Plots

Oft wird Visualisierung isoliert gelehrt, und Best Practices werden nur allgemein besprochen. In der Praxis musst du die Regeln je nach Situation anpassen. Von unaufgeräumten explorativen Visualisierungen bis zum Feinschliff bei Schriftgrößen des Endprodukts: In diesem Kapitel schauen wir uns an, wie du deine Visualisierungen in jeder Phase eines Data-Science-Workflows optimierst.

Exercise 1: Erste Erkundungen Exercise 2: Blick auf die Farmers-Market-Daten Exercise 3: Scatter-Matrix numerischer Spalten Exercise 4: Mit grundlegenden Transformationen tiefer einsteigen Exercise 5: Muster erkunden Exercise 6: Hängt die geografische Breite mit den offenen Monaten zusammen?Exercise 7: Welcher Bundesstaat ist am marktfreundlichsten?Exercise 8: Beliebtheit von Waren nach Bundesstaat Exercise 9: Visualisierungen effizient gestalten Exercise 10: Stapeln, um Trends zu finden Exercise 11: Einen Plot als Legende verwenden Exercise 12: Diagramme feinjustieren Exercise 13: Den Hintergrund aufräumen Exercise 14: Ein Diagramm neu mixen Exercise 15: Lesbarkeit erhöhen Exercise 16: Glückwunsch!