Omettre les valeurs aberrantes
Utilisons maintenant l'ensemble de données student_data
pour comparer la distribution des notes finales ("G3"
) entre les étudiants qui ont un accès à Internet à la maison et ceux qui n'en ont pas. Pour ce faire, nous utiliserons la variable "internet"
, qui est un indicateur binaire (oui/non) indiquant si l'élève a accès à Internet à la maison.
Étant donné qu’Internet peut être moins accessible dans les zones rurales, nous ajouterons des sous-groupes en fonction du lieu de résidence de l'étudiant. Pour ce faire, nous pouvons utiliser la variable "location"
, qui indique si un étudiant vit dans une zone urbaine (« Urban ») ou rurale (« Rural »).
Seaborn a déjà été importé en tant que sns
et matplotlib.pyplot
a été importé en tant que plt
. Pour rappel, vous pouvez omettre les valeurs aberrantes dans les graphiques en boîte en définissant le paramètre sym
égal à une chaîne vide (""
).
Cet exercice fait partie du cours
Introduction to Data Visualization with Seaborn
Instructions
- Utilisez
sns.catplot()
pour créer un graphique en boîte avec le DataFramestudent_data
, en plaçant"internet"
sur l'axe des abscisses et"G3"
sur l'axe des ordonnées. - Ajoutez des sous-groupes pour que chaque graphique soit coloré en fonction de
"location"
. - N'affichez pas les valeurs aberrantes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a box plot with subgroups and omit the outliers
# Show plot
plt.show()