1. Apprendre
  2. /
  3. Cours
  4. /
  5. Introduction à la visualisation de données avec Seaborn

Connected

Exercice

Exclure les valeurs aberrantes

Utilisons maintenant l'ensemble de données student_data pour comparer la distribution des notes finales ("G3") entre les étudiantes et étudiants qui ont l'accès à Internet à la maison et celles et ceux qui ne l'ont pas. Pour ce faire, nous allons utiliser la variable "internet", qui est un indicateur binaire (oui/non) de l'accès à Internet à la maison.

Comme l'Internet peut être moins accessible en région, nous allons ajouter des sous-groupes selon l'endroit où la personne étudiante habite. Pour cela, nous pouvons utiliser la variable "location", qui indique si elle habite en milieu urbain ("Urban") ou rural ("Rural").

Seaborn a déjà été importé sous le nom sns et matplotlib.pyplot a été importé sous le nom plt. Rappel : vous pouvez omettre les valeurs aberrantes dans les boîtes à moustaches en définissant showfliers=False.

Instructions

100 XP
  • Utilisez sns.catplot() pour créer un diagramme en boîtes avec le DataFrame student_data, en plaçant "internet" sur l'axe des x et "G3" sur l'axe des y.
  • Ajoutez des sous-groupes pour que chaque boîte soit colorée selon "location".
  • N'affichez pas les valeurs aberrantes.