Welcher Bundesstaat ist am marktfreundlichsten?

Während du die Daten zu Wochenmärkten erkundest, fragst du dich, welche Muster sichtbar werden, wenn du auf Ebene der Bundesstaaten aggregierst. Sind manche Staaten marktfreundlicher als andere? Um das zu untersuchen, gruppierst du deine Daten nach Bundesstaat und berechnest die logarithmierte Anzahl der Märkte (log_markets) und die Bevölkerungszahl der Staaten (log_pop).

markets_and_pop = (markets
    .groupby('state', as_index = False)
    .agg({
       'name': lambda d: log(len(d)),
       'state_pop': lambda d: log(d.iloc[0]) })
    .rename(columns = {
        'name': 'log_markets', 
        'state_pop': 'log_pop' }))

Zur Visualisierung verwendest du ein Regressionsdiagramm, um eine Idee von der „normalen“ Beziehung zwischen Markt- und Bevölkerungszahlen zu bekommen, und ein Text-Scatter, um interessante Ausreißer schnell zu erkennen.

Diese Übung ist Teil des Kurses

<Kurs>So verbesserst du deine Datenvisualisierungen in Python</Kurs>

Übungsanweisungen

Iteriere über die Zeilen des DataFrames markets_and_pop.
Platziere Anmerkungen neben den Punkten im Streudiagramm.
Reduziere die Schriftgröße der Anmerkungen auf 10 Punkt.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

g = sns.regplot(
    "log_markets", "log_pop", 
    ci = False,
    # Shrink scatter plot points
    scatter_kws = {'s':2},
    data = markets_and_pop)

# Iterate over the rows of the data
for _, row in markets_and_pop.____():
    state, _, _, log_markets, log_pop = row
    # Place annotation and reduce size for clarity
    g.annotate(state, (____,____), ____ = ____)

plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>So verbesserst du deine Datenvisualisierungen in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

Wie zeigst du alle deine Daten, ohne dass Betrachter wichtige Punkte übersehen? Hier besprechen wir, wie du dein Publikum mit farblichen Hervorhebungen und Text durch die Daten führst. Außerdem stellen wir einen Datensatz zu häufigen Schadstoffwerten in den Vereinigten Staaten vor.

Exercise 1: Daten hervorheben Exercise 2: Einen Highlight hart codieren Exercise 3: Hervorhebung programmatisch erstellen Exercise 4: Gruppen vergleichen Exercise 5: Vergleich mit zwei KDEs Exercise 6: Deine KDEs verbessern Exercise 7: Beeswarms Exercise 8: Anmerkungen Exercise 9: Eine einfache Textannotation Exercise 10: Pfeil-Annotationen Exercise 11: Annotationen und Farbe kombinieren

Farbe ist ein mächtiges Werkzeug, um Werte in Visualisierungen zu codieren. Mit dieser Macht gehen jedoch auch Risiken einher. In diesem Kapitel sprechen wir darüber, wie du – abhängig vom Datentyp – eine passende Farbpalette für deine Visualisierung auswählst.

Exercise 1: Farbe in Visualisierungen Exercise 2: Überflüssige Farbe loswerden Exercise 3: Seaborns Balkendiagramme verbessern Exercise 4: Kontinuierliche Farbpaletten Exercise 5: Eine eigene kontinuierliche Palette erstellen Exercise 6: Eine Heatmap mit divergierender Palette anpassen Exercise 7: Palette an den Kontext anpassen Exercise 8: Kategorische Paletten Exercise 9: Eine eigene kategoriale Palette verwenden Exercise 10: Mit zu vielen Kategorien umgehen Exercise 11: Ordinale Kategorien einfärben Exercise 12: Die richtige Variable für die Farbkodierung wählen

Unsicherheit ist überall in der Data Science präsent, wird in Visualisierungen jedoch oft weggelassen, obwohl sie hineingehört. Hier wiederholen wir, was ein Konfidenzintervall ist und wie man es sowohl für Punktschätzungen als auch für kontinuierliche Funktionen darstellt. Zusätzlich besprechen wir die Bootstrap-Resampling-Technik zur Abschätzung von Unsicherheit und wie man sie sinnvoll visualisiert.

Exercise 1: Intervalle für Punktschätzungen Exercise 2: Grundlegende Konfidenzintervalle Exercise 3: Konfidenzintervalle annotieren Exercise 4: Konfidenzbänder Exercise 5: Eine Konfidenzband erstellen Exercise 6: Viele Bänder trennen Exercise 7: Überlappende Bänder bereinigen Exercise 8: Über 95 % hinaus Exercise 9: 90-, 95- und 99-%-Intervalle Exercise 10: 90- und 95-%-Bänder Exercise 11: Bandstärke statt Farbe verwenden Exercise 12: Den Bootstrap visualisieren Exercise 13: Das Bootstrap-Histogramm Exercise 14: Bootstrap-Regressionen Exercise 15: Viele Bootstraps mit Beeswarm-Plots

Oft wird Visualisierung isoliert gelehrt, und Best Practices werden nur allgemein besprochen. In der Praxis musst du die Regeln je nach Situation anpassen. Von unaufgeräumten explorativen Visualisierungen bis zum Feinschliff bei Schriftgrößen des Endprodukts: In diesem Kapitel schauen wir uns an, wie du deine Visualisierungen in jeder Phase eines Data-Science-Workflows optimierst.

Exercise 1: Erste Erkundungen Exercise 2: Blick auf die Farmers-Market-Daten Exercise 3: Scatter-Matrix numerischer Spalten Exercise 4: Mit grundlegenden Transformationen tiefer einsteigen Exercise 5: Muster erkunden Exercise 6: Hängt die geografische Breite mit den offenen Monaten zusammen?Exercise 7: Welcher Bundesstaat ist am marktfreundlichsten?

Aktuelle Übung

Exercise 8: Beliebtheit von Waren nach Bundesstaat Exercise 9: Visualisierungen effizient gestalten Exercise 10: Stapeln, um Trends zu finden Exercise 11: Einen Plot als Legende verwenden Exercise 12: Diagramme feinjustieren Exercise 13: Den Hintergrund aufräumen Exercise 14: Ein Diagramm neu mixen Exercise 15: Lesbarkeit erhöhen Exercise 16: Glückwunsch!