Aan de slagGa gratis aan de slag

Veel categorieën visualiseren

Tot nu toe hebben we in dit hoofdstuk alleen gekeken naar verschillen in een numerieke variabele tussen twee categorieën. Veel gegevenssets bevatten natuurlijk meer categorieën. Voordat je tests uitvoert op veel categorieën, is het vaak handig om eerst verkennende data-analyse (EDA) te doen: bereken samenvattende statistieken per groep en visualiseer de verdelingen van de numerieke variabele per categorie met boxplots.

Hier keren we terug naar de data over te late leveringen, en bekijken we hoe de prijs van elk pakket (pack_price) verschilt tussen de drie verzendwijzen (shipment_mode): "Air", "Air Charter" en "Ocean".

late_shipments is beschikbaar; pandas en matplotlib.pyplot zijn geladen met hun standaardaliassen, en seaborn is geladen als sns.

Deze oefening maakt deel uit van de cursus

Hypothesetoetsen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____

# Print the grouped means
print(xbar_pack_by_mode)
Code bewerken en uitvoeren