Veel categorieën visualiseren
Tot nu toe in dit hoofdstuk hebben we alleen gekeken naar verschillen in een numerieke variabele tussen twee categorieën. Veel gegevenssets bevatten natuurlijk meer categorieën. Voordat je tests op meerdere categorieën uitvoert, is het vaak handig om eerst een verkennende data-analyse te doen. Dat betekent: samenvattende statistieken berekenen per groep en de verdelingen van de numerieke variabele per categorie visualiseren met boxplots.
We gaan hier terug naar de data over late zendingen, en kijken hoe de prijs van elk pakket (pack_price) verschilt tussen de drie verzendmodi (shipment_mode): "Air", "Air Charter" en "Ocean".
late_shipments is beschikbaar; dplyr en ggplot2 zijn geladen.
Deze oefening maakt deel uit van de cursus
Hypothesis Testing in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Using late_shipments, group by shipment mode, and calculate the mean and std dev of pack price
___