Veel bootstraps met bijenzwermen

Als huidige inwoner van Cincinnati ben je benieuwd hoe de gemiddelde NO₂-waarden zich verhouden tot Des Moines, Indianapolis en Houston: een paar andere steden waar je hebt gewoond.

Om dit te onderzoeken, besluit je bootstrap-schatting te gebruiken om te kijken naar de gemiddelde NO₂-waarden voor elke stad. Omdat de vergelijkingen het belangrijkst zijn, gebruik je een swarm-plot om de schattingen te vergelijken.

De DataFrame pollution_may is beschikbaar, samen met de functie bootstrap() uit de dia's om je bootstrap-resampling uit te voeren.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Bekijk cursus

Oefeninstructies

Voer bootstrap-resampling uit op elke city_NO2-vector.
Voeg de stadsnaam toe als een kolom in de bootstrap-DataFrame, cur_boot.
Geef alle punten in de swarm-plot de kleur 'coral' om het kleur-grootteprobleem te vermijden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()

for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
    # Filter to city
    city_NO2 = pollution_may[pollution_may.city  ==  city].NO2
    # Bootstrap city data & put in DataFrame
    cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
    # Append to other city's bootstraps
    city_boots = pd.concat([city_boots,cur_boot])

# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')

plt.show()

Code bewerken en uitvoeren