CommencerCommencez gratuitement

Omettre les valeurs aberrantes

Utilisons maintenant l'ensemble de données student_data pour comparer la distribution des notes finales ("G3") entre les étudiants qui ont un accès à Internet à la maison et ceux qui n'en ont pas. Pour ce faire, nous utiliserons la variable "internet", qui est un indicateur binaire (oui/non) indiquant si l'élève a accès à Internet à la maison.

Étant donné qu’Internet peut être moins accessible dans les zones rurales, nous ajouterons des sous-groupes en fonction du lieu de résidence de l'étudiant. Pour ce faire, nous pouvons utiliser la variable "location", qui indique si un étudiant vit dans une zone urbaine (« Urban ») ou rurale (« Rural »).

Seaborn a déjà été importé en tant que sns et matplotlib.pyplot a été importé en tant que plt. Pour rappel, il est possible d'omettre les valeurs aberrantes dans les graphiques à boîtes à moustaches en définissant showfliers=False.

Cet exercice fait partie du cours

<cours>Introduction à la visualisation de données avec Seaborn</cours>
Voir le cours

Instructions de l’exercice

  • Utilisez sns.catplot() pour créer un graphique en boîte avec le DataFrame student_data, en plaçant "internet" sur l'axe des abscisses et "G3" sur l'axe des ordonnées.
  • Ajoutez des sous-groupes pour que chaque graphique soit coloré en fonction de "location".
  • N'affichez pas les valeurs aberrantes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a box plot with subgroups and omit the outliers






# Show plot
plt.show()
Modifier et exécuter le code