CommencerCommencer gratuitement

Visualiser de nombreuses catégories

Jusqu'à présent, dans ce chapitre, nous n'avons considéré que le cas des différences entre deux catégories d'une variable numérique. Bien entendu, de nombreux ensembles de données contiennent davantage de catégories. Avant de procéder à des tests sur de nombreuses catégories, il est souvent utile d'effectuer une analyse exploratoire des données (EDA), en calculant des statistiques sommaires pour chaque groupe et en visualisant les distributions de la variable numérique pour chaque catégorie à l'aide de diagrammes en boîte.

Nous reviendrons ici sur les données relatives aux envois tardifs et sur la manière dont le prix de chaque colis (pack_price) varie selon les trois modes d'expédition (shipment_mode) : "Air", "Air Charter", et "Ocean".

late_shipments est disponible ; pandas et matplotlib.pyplot sont chargés avec leurs alias standard, et seaborn est chargé en tant que sns.

Cet exercice fait partie du cours

Tests d'hypothèses en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____

# Print the grouped means
print(xbar_pack_by_mode)
Modifier et exécuter le code