CommencerCommencer gratuitement

Identifier les valeurs aberrantes

Considérez la distribution, présentée ici, des espérances de vie des pays d’Asie. Le diagramme en boîte met en évidence une valeur aberrante claire : un pays avec une espérance de vie remarquablement basse. Avez-vous une idée du pays concerné ? Vérifiez votre hypothèse dans la console en utilisant min() ou filter(), puis passez à la construction d’un graphique avec ce pays retiré.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

gap2007 est toujours disponible dans votre espace de travail.

  • Appliquez un filtre pour ne conserver que les observations provenant d’Asie, puis créez une nouvelle variable appelée is_outlier qui vaut TRUE pour les pays dont l’espérance de vie est inférieure à 50. Assignez le résultat à gap_asia.
  • Filtrez gap_asia pour supprimer toutes les valeurs aberrantes, puis créez un autre diagramme en boîte des espérances de vie restantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
  filter(___) %>%
  mutate(___ = ___)

# Remove outliers, create box plot of lifeExp
gap_asia %>%
  filter(___) %>%
  ggplot(aes(x = ___, y = ___)) +
  ___
Modifier et exécuter le code