CommencerCommencer gratuitement

Omettre les valeurs aberrantes

Utilisons maintenant l'ensemble de données student_data pour comparer la distribution des notes finales ("G3") entre les étudiants qui ont un accès à Internet à la maison et ceux qui n'en ont pas. Pour ce faire, nous utiliserons la variable "internet", qui est un indicateur binaire (oui/non) indiquant si l'élève a accès à Internet à la maison.

Étant donné qu’Internet peut être moins accessible dans les zones rurales, nous ajouterons des sous-groupes en fonction du lieu de résidence de l'étudiant. Pour ce faire, nous pouvons utiliser la variable "location", qui indique si un étudiant vit dans une zone urbaine (« Urban ») ou rurale (« Rural »).

Seaborn a déjà été importé en tant que sns et matplotlib.pyplot a été importé en tant que plt. Pour rappel, vous pouvez omettre les valeurs aberrantes dans les graphiques en boîte en définissant le paramètre sym égal à une chaîne vide ("").

Cet exercice fait partie du cours

Introduction to Data Visualization with Seaborn

Afficher le cours

Instructions

  • Utilisez sns.catplot() pour créer un graphique en boîte avec le DataFrame student_data, en plaçant "internet" sur l'axe des abscisses et "G3" sur l'axe des ordonnées.
  • Ajoutez des sous-groupes pour que chaque graphique soit coloré en fonction de "location".
  • N'affichez pas les valeurs aberrantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a box plot with subgroups and omit the outliers






# Show plot
plt.show()
Modifier et exécuter le code