Muchos bootstraps con beeswarms
Como residente actual de Cincinnati, tienes curiosidad por ver cómo se comparan los valores medios de NO2 con los de Des Moines, Indianápolis y Houston: algunas otras ciudades en las que has vivido.
Para analizarlo, decides usar estimación bootstrap para calcular los valores medios de NO2 de cada ciudad. Como te interesan principalmente las comparaciones, usarás un diagrama de enjambre (swarm plot) para comparar las estimaciones.
Se te proporciona el DataFrame pollution_may junto con la función bootstrap() que viste en las diapositivas para realizar el remuestreo bootstrap.
Este ejercicio forma parte del curso
Mejora tus visualizaciones de datos en Python
Instrucciones del ejercicio
- Ejecuta el remuestreo bootstrap en cada vector
city_NO2. - Añade el nombre de la ciudad como una columna en el DataFrame de bootstrap,
cur_boot. - Colorea todos los puntos del swarm plot como
'coral'para evitar el problema de color-tamaño.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()
for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
# Filter to city
city_NO2 = pollution_may[pollution_may.city == city].NO2
# Bootstrap city data & put in DataFrame
cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
# Append to other city's bootstraps
city_boots = pd.concat([city_boots,cur_boot])
# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')
plt.show()