Tanti bootstrap con beeswarm
Come residente attuale di Cincinnati, sei curioso di vedere come i valori medi di NO2 si confrontano con Des Moines, Indianapolis e Houston: alcune altre città in cui hai vissuto.
Per analizzare la questione, decidi di usare la stima bootstrap per osservare i valori medi di NO2 per ciascuna città. Poiché i confronti sono l’obiettivo principale, userai uno swarm plot per confrontare le stime.
Il DataFrame pollution_may è fornito insieme alla funzione bootstrap() vista nelle diapositive per eseguire il tuo resampling bootstrap.
Questo esercizio fa parte del corso
Migliorare le tue visualizzazioni dei dati in Python
Istruzioni dell'esercizio
- Esegui il resampling bootstrap su ciascun vettore
city_NO2. - Aggiungi il nome della città come colonna nel DataFrame del bootstrap,
cur_boot. - Colora tutti i punti dello swarm plot di
'coral'per evitare il problema colore-dimensione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()
for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
# Filter to city
city_NO2 = pollution_may[pollution_may.city == city].NO2
# Bootstrap city data & put in DataFrame
cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
# Append to other city's bootstraps
city_boots = pd.concat([city_boots,cur_boot])
# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')
plt.show()