Veel bootstraps met bijenzwermen
Als huidige inwoner van Cincinnati ben je benieuwd hoe de gemiddelde NO2-waarden zich verhouden tot Des Moines, Indianapolis en Houston: een paar andere steden waar je hebt gewoond.
Om dit te onderzoeken, besluit je bootstrap-schatting te gebruiken om te kijken naar de gemiddelde NO2-waarden voor elke stad. Omdat de vergelijkingen het belangrijkst zijn, gebruik je een swarm-plot om de schattingen te vergelijken.
De DataFrame pollution_may is beschikbaar, samen met de functie bootstrap() uit de dia's om je bootstrap-resampling uit te voeren.
Deze oefening maakt deel uit van de cursus
Je datavisualisaties verbeteren in Python
Oefeninstructies
- Voer bootstrap-resampling uit op elke
city_NO2-vector. - Voeg de stadsnaam toe als een kolom in de bootstrap-DataFrame,
cur_boot. - Geef alle punten in de swarm-plot de kleur
'coral'om het kleur-grootteprobleem te vermijden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()
for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
# Filter to city
city_NO2 = pollution_may[pollution_may.city == city].NO2
# Bootstrap city data & put in DataFrame
cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
# Append to other city's bootstraps
city_boots = pd.concat([city_boots,cur_boot])
# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')
plt.show()