Die richtige Variable für die Farbkodierung wählen

Du sollst die Luftverschmutzungswerte für Long Beach und nahegelegene Städte im Zeitverlauf visualisieren. Der bereitgestellte Code erzeugt das untenstehende (schwer lesbare) Diagramm, das aus maximalen Verschmutzungswerten (bereitgestellt als max_pollutant_values) besteht, wobei die Balken nach Stadt eingefärbt sind.

Mutlicolor and busy bar plots with four rows corresponding to the four pollutants in dataset

Mit ein paar Anpassungen kannst du das schnell verbessern. Wenn du die angezeigten Städte auf diejenigen in der westlichen Hälfte der USA beschränkst, vermeidest du Unübersichtlichkeit. Außerdem ermöglicht das Tauschen der Farbkodierung von city auf year die Verwendung einer ordinalen Palette, sodass Leserinnen und Leser nicht ständig in die Legende schauen müssen, um zu prüfen, welche Farbe zu welcher Stadt gehört.

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Anleitung zur Übung

Entferne 'Indianapolis', 'Des Moines', 'Cincinnati', 'Houston' aus dem Vektor cities.
Tausche die Kodierungen der Variablen city und year.
Verwende die ColorBrewer-Palette 'BuGn', um die Farben für die nun ordinale Variable passend abzubilden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Reduce to just cities in the western half of US
cities = ['Fairbanks', 'Long Beach', 'Vandenberg Air Force Base', 'Denver', 
          'Indianapolis', 'Des Moines', 'Cincinnati', 'Houston']

# Filter data to desired cities
city_maxes = max_pollutant_values[max_pollutant_values.city.isin(cities)]

# Swap city and year encodings
sns.catplot(x = 'year', hue = 'city',
              y = 'value', row = 'pollutant',    
              # Change palette to one appropriate for ordinal categories
              data = city_maxes, palette = 'muted',
              sharey = False, kind = 'bar')
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

So verbesserst du deine Datenvisualisierungen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wie zeigst du alle deine Daten, ohne dass Betrachter wichtige Punkte übersehen? Hier besprechen wir, wie du dein Publikum mit farblichen Hervorhebungen und Text durch die Daten führst. Außerdem stellen wir einen Datensatz zu häufigen Schadstoffwerten in den Vereinigten Staaten vor.

Exercise 1: Daten hervorheben Exercise 2: Einen Highlight hart codieren Exercise 3: Hervorhebung programmatisch erstellen Exercise 4: Gruppen vergleichen Exercise 5: Vergleich mit zwei KDEs Exercise 6: Deine KDEs verbessern Exercise 7: Beeswarms Exercise 8: Anmerkungen Exercise 9: Eine einfache Textannotation Exercise 10: Pfeil-Annotationen Exercise 11: Annotationen und Farbe kombinieren

Farbe ist ein mächtiges Werkzeug, um Werte in Visualisierungen zu codieren. Mit dieser Macht gehen jedoch auch Risiken einher. In diesem Kapitel sprechen wir darüber, wie du – abhängig vom Datentyp – eine passende Farbpalette für deine Visualisierung auswählst.

Exercise 1: Farbe in Visualisierungen Exercise 2: Überflüssige Farbe loswerden Exercise 3: Seaborns Balkendiagramme verbessern Exercise 4: Kontinuierliche Farbpaletten Exercise 5: Eine eigene kontinuierliche Palette erstellen Exercise 6: Eine Heatmap mit divergierender Palette anpassen Exercise 7: Palette an den Kontext anpassen Exercise 8: Kategorische Paletten Exercise 9: Eine eigene kategoriale Palette verwenden Exercise 10: Mit zu vielen Kategorien umgehen Exercise 11: Ordinale Kategorien einfärben Exercise 12: Die richtige Variable für die Farbkodierung wählen

Aktuelle Übung

Unsicherheit ist überall in der Data Science präsent, wird in Visualisierungen jedoch oft weggelassen, obwohl sie hineingehört. Hier wiederholen wir, was ein Konfidenzintervall ist und wie man es sowohl für Punktschätzungen als auch für kontinuierliche Funktionen darstellt. Zusätzlich besprechen wir die Bootstrap-Resampling-Technik zur Abschätzung von Unsicherheit und wie man sie sinnvoll visualisiert.

Exercise 1: Intervalle für Punktschätzungen Exercise 2: Grundlegende Konfidenzintervalle Exercise 3: Konfidenzintervalle annotieren Exercise 4: Konfidenzbänder Exercise 5: Eine Konfidenzband erstellen Exercise 6: Viele Bänder trennen Exercise 7: Überlappende Bänder bereinigen Exercise 8: Über 95 % hinaus Exercise 9: 90-, 95- und 99-%-Intervalle Exercise 10: 90- und 95-%-Bänder Exercise 11: Bandstärke statt Farbe verwenden Exercise 12: Den Bootstrap visualisieren Exercise 13: Das Bootstrap-Histogramm Exercise 14: Bootstrap-Regressionen Exercise 15: Viele Bootstraps mit Beeswarm-Plots

Oft wird Visualisierung isoliert gelehrt, und Best Practices werden nur allgemein besprochen. In der Praxis musst du die Regeln je nach Situation anpassen. Von unaufgeräumten explorativen Visualisierungen bis zum Feinschliff bei Schriftgrößen des Endprodukts: In diesem Kapitel schauen wir uns an, wie du deine Visualisierungen in jeder Phase eines Data-Science-Workflows optimierst.

Exercise 1: Erste Erkundungen Exercise 2: Blick auf die Farmers-Market-Daten Exercise 3: Scatter-Matrix numerischer Spalten Exercise 4: Mit grundlegenden Transformationen tiefer einsteigen Exercise 5: Muster erkunden Exercise 6: Hängt die geografische Breite mit den offenen Monaten zusammen?Exercise 7: Welcher Bundesstaat ist am marktfreundlichsten?Exercise 8: Beliebtheit von Waren nach Bundesstaat Exercise 9: Visualisierungen effizient gestalten Exercise 10: Stapeln, um Trends zu finden Exercise 11: Einen Plot als Legende verwenden Exercise 12: Diagramme feinjustieren Exercise 13: Den Hintergrund aufräumen Exercise 14: Ein Diagramm neu mixen Exercise 15: Lesbarkeit erhöhen Exercise 16: Glückwunsch!