Visualizzare molte categorie
Finora in questo capitolo abbiamo considerato solo il caso di differenze in una variabile numerica tra due categorie. Ovviamente, molti insiemi di dati contengono più categorie. Prima di eseguire test su molte categorie, è spesso utile fare un'analisi esplorativa dei dati (EDA), calcolando le statistiche riassuntive per ciascun gruppo e visualizzando le distribuzioni della variabile numerica per ogni categoria usando i box plot.
Qui torniamo ai dati sulle spedizioni in ritardo e a come il prezzo di ogni pacco (pack_price) varia tra le tre modalità di spedizione (shipment_mode): "Air", "Air Charter" e "Ocean".
late_shipments è disponibile; pandas e matplotlib.pyplot sono caricati con i loro alias standard e seaborn è caricato come sns.
Questo esercizio fa parte del corso
Test di ipotesi in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)