Veel categorieën visualiseren
Tot nu toe hebben we in dit hoofdstuk alleen gekeken naar verschillen in een numerieke variabele tussen twee categorieën. Veel gegevenssets bevatten natuurlijk meer categorieën. Voordat je tests uitvoert op veel categorieën, is het vaak handig om eerst verkennende data-analyse (EDA) te doen: bereken samenvattende statistieken per groep en visualiseer de verdelingen van de numerieke variabele per categorie met boxplots.
Hier keren we terug naar de data over te late leveringen, en bekijken we hoe de prijs van elk pakket (pack_price) verschilt tussen de drie verzendwijzen (shipment_mode): "Air", "Air Charter" en "Ocean".
late_shipments is beschikbaar; pandas en matplotlib.pyplot zijn geladen met hun standaardaliassen, en seaborn is geladen als sns.
Deze oefening maakt deel uit van de cursus
Hypothesetoetsen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)