Viele Kategorien visualisieren
Bisher haben wir in diesem Kapitel nur den Fall betrachtet, dass es bei einer numerischen Variable Unterschiede zwischen zwei Kategorien gibt. Natürlich enthalten viele Datensätze mehr Kategorien. Bevor du Tests für viele Kategorien durchführst, ist es oft hilfreich, eine explorative Datenanalyse (EDA) durchzuführen, indem du zusammenfassende Statistiken für jede Gruppe berechnest und die Verteilungen der numerischen Variablen für jede Kategorie mithilfe von Boxplots visualisierst.
An dieser Stelle kehren wir zu den Daten über verspätete Sendungen zurück und zeigen, wie der Preis für jedes Paket (pack_price
) zwischen den drei Versandarten (shipment_mode
) variiert: "Air"
, "Air Charter"
, und "Ocean"
.
late_shipments
ist verfügbar; pandas
und matplotlib.pyplot
werden mit ihren Standard-Aliasnamen geladen, und seaborn
wird als sns
geladen.
Diese Übung ist Teil des Kurses
Hypothesentests in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)