Diagrammes en boîtes pour détecter les valeurs aberrantes
En plus d’indiquer la tendance centrale et la dispersion d’une distribution, un diagramme en boîtes
permet de repérer visuellement les valeurs aberrantes. Vous pouvez appliquer cette méthode à la
colonne msrp (prix de vente conseillé par le fabricant) pour détecter la présence éventuelle de voitures
particulièrement chères ou bon marché.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
- Créez un diagramme en boîtes de
msrp. - Excluez les 3 à 5 plus grandes valeurs aberrantes en filtrant les lignes pour ne conserver que les voitures à moins de 100 000 $. Enregistrez ce jeu de données réduit sous le nom
cars_no_out. - Créez un diagramme en boîtes similaire de
msrpavec ce jeu de données réduit. Comparez les deux graphiques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Construct box plot of msrp
cars %>%
ggplot(aes(x = 1, y = ___)) +
geom_boxplot()
# Exclude outliers from data
cars_no_out <- cars %>%
filter(___)
# Construct box plot of msrp using the reduced dataset
cars_no_out %>%
___ +
___