Visualiser de nombreuses catégories
Jusqu'à présent, dans ce chapitre, nous n'avons considéré que le cas des différences entre deux catégories d'une variable numérique. Bien entendu, de nombreux ensembles de données contiennent davantage de catégories. Avant de procéder à des tests sur de nombreuses catégories, il est souvent utile d'effectuer une analyse exploratoire des données. Il s'agit de calculer des statistiques sommaires pour chaque groupe et de visualiser les distributions de la variable numérique pour chaque catégorie à l'aide de graphiques en boîte.
Nous reviendrons ici sur les données relatives aux envois tardifs et sur la manière dont le prix de chaque colis (pack_price
) varie selon les trois modes d'expédition (shipment_mode
) : "Air"
, "Air Charter"
, et "Ocean"
.
late_shipments
est disponible ; dplyr
et ggplot2
sont chargés.
Cet exercice fait partie du cours
Tests d'hypothèses en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Using late_shipments, group by shipment mode, and calculate the mean and std dev of pack price
___