Viele Kategorien visualisieren
Bisher haben wir in diesem Kapitel nur den Fall betrachtet, dass es bei einer numerischen Variable Unterschiede zwischen zwei Kategorien gibt. Natürlich enthalten viele Datensätze mehr Kategorien. Bevor du mit der Durchführung von Tests für viele Kategorien beginnst, ist es oft hilfreich, eine explorative Datenanalyse (EDA) durchzuführen, dabei für jede Gruppe zusammenfassende Statistiken zu berechnen und die Verteilungen der numerischen Variablen für jede Kategorie mithilfe von Boxplots zu visualisieren.
An dieser Stelle kehren wir zu den Daten über verspätete Sendungen zurück und zeigen, wie der Preis für jedes Paket (pack_price) zwischen den drei Versandarten (shipment_mode) variiert: "Air", "Air Charter", und "Ocean".
late_shipments ist verfügbar; pandas und matplotlib.pyplot werden mit ihren Standard-Aliasnamen geladen, und seaborn wird als sns geladen.
Diese Übung ist Teil des Kurses
Hypothesentests in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)