CommencerCommencez gratuitement

Identifier les valeurs aberrantes

Considérez la distribution, présentée ici, des espérances de vie des pays d’Asie. Le diagramme en boîte met en évidence une valeur aberrante claire : un pays avec une espérance de vie remarquablement basse. Avez-vous une idée du pays concerné ? Vérifiez votre hypothèse dans la console en utilisant min() ou filter(), puis passez à la construction d’un graphique avec ce pays retiré.

Cet exercice fait partie du cours

<cours>Analyse exploratoire des données en R</cours>
Voir le cours

Instructions de l’exercice

gap2007 est toujours disponible dans votre espace de travail.

  • Appliquez un filtre pour ne conserver que les observations provenant d’Asie, puis créez une nouvelle variable appelée is_outlier qui vaut TRUE pour les pays dont l’espérance de vie est inférieure à 50. Assignez le résultat à gap_asia.
  • Filtrez gap_asia pour supprimer toutes les valeurs aberrantes, puis créez un autre diagramme en boîte des espérances de vie restantes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
  filter(___) %>%
  mutate(___ = ___)

# Remove outliers, create box plot of lifeExp
gap_asia %>%
  filter(___) %>%
  ggplot(aes(x = ___, y = ___)) +
  ___
Modifier et exécuter le code