Visualisation des données des scores SAT à NYC
Dans la leçon précédente, en parlant des carrés latins, nous avons réalisé une EDA numérique en examinant les moyennes, variances et médianes des scores SAT de mathématiques. Une autre composante essentielle de l’EDA est la visualisation des données, qui aide souvent à repérer les valeurs aberrantes et offre une représentation visuelle de la distribution de vos variables.
ggplot2 a été chargé pour vous et le jeu de données nyc_scores est disponible. Créez et examinez le boxplot demandé. Comment les médianes diffèrent-elles selon le borough ? Combien de valeurs aberrantes sont présentes, et où se concentrent-elles principalement ?
Cet exercice fait partie du cours
Plan d’expériences en R
Instructions
- Créez un boxplot des scores SAT de mathématiques par
Borough. - Exécutez le code pour inclure le titre :
"Average SAT Math Scores by Borough, NYC". - Modifiez les étiquettes des axes x et y pour afficher respectivement
"Borough (NYC)"et"Average SAT Math Scores (2014-15)", en utilisant les bons arguments delabs().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a boxplot of Math scores by Borough, with a title and x/y axis labels
ggplot(___) +
___ +
labs(title = "Average SAT Math Scores by Borough, NYC",
___,
___)