Visualiser de nombreuses variables
Lorsque vous commencez à prendre en compte davantage de variables, les représenter toutes en même temps devient de plus en plus difficile. En plus d’utiliser les axes x et y pour deux variables numériques, vous pouvez utiliser la couleur pour une troisième variable numérique, et le facettage pour des variables catégorielles. Et c’est à peu près la limite avant que les graphiques ne deviennent trop difficiles à interpréter. Il existe des types de graphiques spécialisés, comme les cartes de chaleur de corrélation et les coordonnées parallèles, qui gèrent plus de variables, mais ils fournissent beaucoup moins d’informations sur chaque variable et ne sont pas idéaux pour visualiser les prédictions d’un modèle.
Ici, vous allez repousser les limites du nuage de points en affichant à la fois le prix du logement, la distance à la station MRT, le nombre de supérettes à proximité et l’âge du logement, le tout dans un seul graphique.
taiwan_real_estate est disponible ; ggplot2 est chargé.
Cet exercice fait partie du cours
Régression intermédiaire en R
Instructions
- En utilisant le jeu de données
taiwan_real_estate, tracez un nuage de points den_convenienceen fonction de la racine carrée dedist_to_mrt_m, coloré parprice_twd_msq. - Utilisez l’échelle de couleurs continue viridis « plasma ».
- Facettez le graphique avec un wrapping par
house_age_years.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___