Viele Bootstraps mit Beeswarm-Plots
Als aktuelle:r Einwohner:in von Cincinnati möchtest du wissen, wie die durchschnittlichen NO2-Werte im Vergleich zu Des Moines, Indianapolis und Houston aussehen – ein paar anderen Städten, in denen du gelebt hast.
Um das zu untersuchen, verwendest du Bootstrap-Schätzung, um die mittleren NO2-Werte für jede Stadt zu betrachten. Da die Vergleiche im Vordergrund stehen, nutzt du einen Swarm-Plot, um die Schätzungen gegenüberzustellen.
Das DataFrame pollution_may ist zusammen mit der in den Folien gezeigten Funktion bootstrap() zum Durchführen des Bootstrap-Resamplings bereitgestellt.
Diese Übung ist Teil des Kurses
So verbesserst du deine Datenvisualisierungen in Python
Anleitung zur Übung
- Führe Bootstrap-Resampling auf jedem
city_NO2-Vektor aus. - Füge den Stadtnamen als Spalte im Bootstrap-DataFrame
cur_boothinzu. - Färbe alle Punkte im Swarm-Plot mit
'coral', um das Farb-Größen-Problem zu vermeiden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()
for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
# Filter to city
city_NO2 = pollution_may[pollution_may.city == city].NO2
# Bootstrap city data & put in DataFrame
cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
# Append to other city's bootstraps
city_boots = pd.concat([city_boots,cur_boot])
# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')
plt.show()