CommencerCommencer gratuitement

Visualiser de nombreuses variables

Lorsque vous commencez à prendre en compte davantage de variables, les représenter toutes en même temps devient de plus en plus difficile. En plus d’utiliser les axes x et y pour deux variables numériques, vous pouvez utiliser la couleur pour une troisième variable numérique, et le facettage pour des variables catégorielles. Et c’est à peu près la limite avant que les graphiques ne deviennent trop difficiles à interpréter. Il existe des types de graphiques spécialisés, comme les cartes de chaleur de corrélation et les coordonnées parallèles, qui gèrent plus de variables, mais ils fournissent beaucoup moins d’informations sur chaque variable et ne sont pas idéaux pour visualiser les prédictions d’un modèle.

Ici, vous allez repousser les limites du nuage de points en affichant à la fois le prix du logement, la distance à la station MRT, le nombre de supérettes à proximité et l’âge du logement, le tout dans un seul graphique.

taiwan_real_estate est disponible ; ggplot2 est chargé.

Cet exercice fait partie du cours

Régression intermédiaire en R

Afficher le cours

Instructions

  • En utilisant le jeu de données taiwan_real_estate, tracez un nuage de points de n_convenience en fonction de la racine carrée de dist_to_mrt_m, coloré par price_twd_msq.
  • Utilisez l’échelle de couleurs continue viridis « plasma ».
  • Facettez le graphique avec un wrapping par house_age_years.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
  # Make it a scatter plot
  ___ +
  # Use the continuous viridis plasma color scale
  ___ +
  # Facet, wrapped by house age
  ___
Modifier et exécuter le code