CommencerCommencer gratuitement

Beaucoup de bootstraps avec des beeswarms

Résidant actuellement à Cincinnati, vous êtes curieux de comparer les valeurs moyennes de NO2 avec celles de Des Moines, Indianapolis et Houston : quelques autres villes où vous avez vécu.

Pour cela, vous décidez d’utiliser une estimation par bootstrap afin d’examiner les valeurs moyennes de NO2 pour chaque ville. Comme les comparaisons sont votre principal objectif, vous utiliserez un swarm plot pour comparer les estimations.

Le DataFrame pollution_may est fourni, ainsi que la fonction bootstrap() présentée dans les diaporamas pour effectuer votre rééchantillonnage bootstrap.

Cet exercice fait partie du cours

Améliorer vos visualisations de données en Python

Afficher le cours

Instructions

  • Exécutez le rééchantillonnage bootstrap sur chaque vecteur city_NO2.
  • Ajoutez le nom de la ville comme colonne dans le DataFrame de bootstrap, cur_boot.
  • Colorez tous les points du swarm plot en 'coral' pour éviter le problème taille-couleur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize a holder DataFrame for bootstrap results
city_boots = pd.DataFrame()

for city in ['Cincinnati', 'Des Moines', 'Indianapolis', 'Houston']:
    # Filter to city
    city_NO2 = pollution_may[pollution_may.city  ==  city].NO2
    # Bootstrap city data & put in DataFrame
    cur_boot = pd.DataFrame({'NO2_avg': bootstrap(____, 100), 'city': ____})
    # Append to other city's bootstraps
    city_boots = pd.concat([city_boots,cur_boot])

# Beeswarm plot of averages with citys on y axis
sns.swarmplot(y = "city", x = "NO2_avg", data = city_boots, ____ = '____')

plt.show()
Modifier et exécuter le code