Identifier les valeurs aberrantes
Considérez la distribution, présentée ici, des espérances de vie des pays d’Asie. Le diagramme en boîte met en évidence une valeur aberrante claire : un pays avec une espérance de vie remarquablement basse. Avez-vous une idée du pays concerné ? Vérifiez votre hypothèse dans la console en utilisant min() ou filter(), puis passez à la construction d’un graphique avec ce pays retiré.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
gap2007 est toujours disponible dans votre espace de travail.
- Appliquez un filtre pour ne conserver que les observations provenant d’Asie, puis créez une nouvelle variable appelée
is_outlierqui vautTRUEpour les pays dont l’espérance de vie est inférieure à 50. Assignez le résultat àgap_asia. - Filtrez
gap_asiapour supprimer toutes les valeurs aberrantes, puis créez un autre diagramme en boîte des espérances de vie restantes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
filter(___) %>%
mutate(___ = ___)
# Remove outliers, create box plot of lifeExp
gap_asia %>%
filter(___) %>%
ggplot(aes(x = ___, y = ___)) +
___