Beaucoup de bootstraps avec des beeswarms
Résidant actuellement à Cincinnati, vous êtes curieux de comparer les valeurs moyennes de NO2 avec celles de Des Moines, Indianapolis et Houston : quelques autres villes où vous avez vécu.
Pour cela, vous décidez d’utiliser une estimation par bootstrap afin d’examiner les valeurs moyennes de NO2 pour chaque ville. Comme les comparaisons sont votre principal objectif, vous utiliserez un swarm plot pour comparer les estimations.
Le DataFrame pollution_may est fourni, ainsi que la fonction bootstrap() présentée dans les diaporamas pour effectuer votre rééchantillonnage bootstrap.
Cet exercice fait partie du cours
Améliorer vos visualisations de données en Python
Instructions
- Exécutez le rééchantillonnage bootstrap sur chaque vecteur
city_NO2. - Ajoutez le nom de la ville comme colonne dans le DataFrame de bootstrap,
cur_boot. - Colorez tous les points du swarm plot en
'coral'pour éviter le problème taille-couleur.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()
for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
# Filter to city
city_NO2 = pollution_may[pollution_may.city == city].NO2
# Bootstrap city data & put in DataFrame
cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
# Append to other city's bootstraps
city_boots = pd.concat([city_boots,cur_boot])
# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')
plt.show()