Visualiser de nombreuses variables
Lorsque vous commencez à prendre en compte davantage de variables, les représenter toutes en même temps devient de plus en plus difficile. En plus d’utiliser les axes x et y pour deux variables numériques, vous pouvez utiliser la couleur pour une troisième variable numérique, et le facettage pour des variables catégorielles. Au-delà, les graphiques deviennent généralement trop difficiles à interpréter. Il existe des types de graphiques spécialisés, comme les cartes de chaleur de corrélation ou les coordonnées parallèles, qui gèrent plus de variables, mais ils fournissent beaucoup moins d’informations sur chacune et sont peu adaptés pour visualiser des prédictions de modèles.
Ici, vous allez repousser les limites du nuage de points en affichant le prix du logement, la distance à la station MRT, le nombre d’épiceries de proximité à proximité, et l’âge du logement, le tout dans un seul graphique.
taiwan_real_estate est disponible.
Cet exercice fait partie du cours
Régression intermédiaire avec statsmodels en Python
Instructions
- Créez une grille de facettes pour chaque
house_age_yearsdanstaiwan_real_estate. - En utilisant le jeu de données
taiwan_real_estate, tracez un nuage de points den_convenienceen fonction desqrt_dist_to_mrt_m, coloré parprice_twd_msq.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Prepare the grid using taiwan_real_estate, for each house age category, colored by price_twd_msq
grid = ____(data=____,
col=____,
hue=____,
palette="plasma")
# Plot the scatterplots with sqrt_dist_to_mrt_m on the x-axis and n_convenience on the y-axis
grid.map(____,
____,
____)
# Show the plot (brighter colors mean higher prices)
plt.show()