Visualiser de nombreuses catégories
Jusqu'à présent, dans ce chapitre, nous n'avons considéré que le cas des différences entre deux catégories d'une variable numérique. Bien entendu, de nombreux ensembles de données contiennent davantage de catégories. Avant de procéder à des tests sur de nombreuses catégories, il est souvent utile d'effectuer une analyse exploratoire des données (EDA), en calculant des statistiques sommaires pour chaque groupe et en visualisant les distributions de la variable numérique pour chaque catégorie à l'aide de diagrammes en boîte.
Nous reviendrons ici sur les données relatives aux envois tardifs et sur la manière dont le prix de chaque colis (pack_price
) varie selon les trois modes d'expédition (shipment_mode
) : "Air"
, "Air Charter"
, et "Ocean"
.
late_shipments
est disponible ; pandas
et matplotlib.pyplot
sont chargés avec leurs alias standard, et seaborn
est chargé en tant que sns
.
Cet exercice fait partie du cours
Tests d'hypothèses en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)