CommencerCommencer gratuitement

Visualiser de nombreuses variables

Lorsque vous commencez à prendre en compte davantage de variables, les représenter toutes en même temps devient de plus en plus difficile. En plus d’utiliser les axes x et y pour deux variables numériques, vous pouvez utiliser la couleur pour une troisième variable numérique, et le facettage pour des variables catégorielles. Au-delà, les graphiques deviennent généralement trop difficiles à interpréter. Il existe des types de graphiques spécialisés, comme les cartes de chaleur de corrélation ou les coordonnées parallèles, qui gèrent plus de variables, mais ils fournissent beaucoup moins d’informations sur chacune et sont peu adaptés pour visualiser des prédictions de modèles.

Ici, vous allez repousser les limites du nuage de points en affichant le prix du logement, la distance à la station MRT, le nombre d’épiceries de proximité à proximité, et l’âge du logement, le tout dans un seul graphique.

taiwan_real_estate est disponible.

Cet exercice fait partie du cours

Régression intermédiaire avec statsmodels en Python

Afficher le cours

Instructions

  • Créez une grille de facettes pour chaque house_age_years dans taiwan_real_estate.
  • En utilisant le jeu de données taiwan_real_estate, tracez un nuage de points de n_convenience en fonction de sqrt_dist_to_mrt_m, coloré par price_twd_msq.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Prepare the grid using taiwan_real_estate, for each house age category, colored by price_twd_msq
grid = ____(data=____,
            col=____,
            hue=____,
            palette="plasma")

# Plot the scatterplots with sqrt_dist_to_mrt_m on the x-axis and n_convenience on the y-axis
grid.map(____,
         ____,
         ____)

# Show the plot (brighter colors mean higher prices)
plt.show()
Modifier et exécuter le code