LoslegenKostenlos loslegen

Viele Kategorien visualisieren

Bisher haben wir in diesem Kapitel nur den Fall betrachtet, dass es bei einer numerischen Variable Unterschiede zwischen zwei Kategorien gibt. Natürlich enthalten viele Datensätze mehr Kategorien. Bevor du Tests für viele Kategorien durchführst, ist es oft hilfreich, eine explorative Datenanalyse (EDA) durchzuführen, indem du zusammenfassende Statistiken für jede Gruppe berechnest und die Verteilungen der numerischen Variablen für jede Kategorie mithilfe von Boxplots visualisierst.

An dieser Stelle kehren wir zu den Daten über verspätete Sendungen zurück und zeigen, wie der Preis für jedes Paket (pack_price) zwischen den drei Versandarten (shipment_mode) variiert: "Air", "Air Charter", und "Ocean".

late_shipments ist verfügbar; pandas und matplotlib.pyplot werden mit ihren Standard-Aliasnamen geladen, und seaborn wird als sns geladen.

Diese Übung ist Teil des Kurses

Hypothesentests in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____

# Print the grouped means
print(xbar_pack_by_mode)
Code bearbeiten und ausführen