CommencerCommencer gratuitement

Diagrammes en boîtes pour détecter les valeurs aberrantes

En plus d’indiquer la tendance centrale et la dispersion d’une distribution, un diagramme en boîtes permet de repérer visuellement les valeurs aberrantes. Vous pouvez appliquer cette méthode à la colonne msrp (prix de vente conseillé par le fabricant) pour détecter la présence éventuelle de voitures particulièrement chères ou bon marché.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

  • Créez un diagramme en boîtes de msrp.
  • Excluez les 3 à 5 plus grandes valeurs aberrantes en filtrant les lignes pour ne conserver que les voitures à moins de 100 000 $. Enregistrez ce jeu de données réduit sous le nom cars_no_out.
  • Créez un diagramme en boîtes similaire de msrp avec ce jeu de données réduit. Comparez les deux graphiques.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Construct box plot of msrp
cars %>%
  ggplot(aes(x = 1, y = ___)) +
  geom_boxplot()

# Exclude outliers from data
cars_no_out <- cars %>%
  filter(___)

# Construct box plot of msrp using the reduced dataset
cars_no_out %>%
  ___ +
  ___
Modifier et exécuter le code