Matrice de nuages de points des colonnes numériques
Vous avez exploré les nouvelles données des marchés fermiers, et elles sont plutôt larges : chaque ligne comporte de nombreuses colonnes d’informations pour un marché. Plutôt que de passer en revue chaque combinaison de colonnes numériques et de tracer un nuage de points pour observer les corrélations, vous décidez de créer une matrice de nuages de points à l’aide de la fonction intégrée de pandas.
Augmenter la taille de la figure avec l’argument figsize permettra d’aérer une visualisation très dense. Comme il y aura beaucoup de superpositions de points, réduire l’opacité des points aidera à montrer la densité de ces superpositions.
Cet exercice fait partie du cours
Améliorer vos visualisations de données en Python
Instructions
- Restreignez les colonnes du DataFrame
marketsànumeric_columnspour que la matrice de nuages de points n’affiche que les colonnes numériques non binaires. - Augmentez la taille de la figure à
15par10pour éviter la surcharge. - Réduisez l’opacité des points à 50 % pour faire apparaître les zones de recouvrement.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select just the numeric columns (exluding individual goods)
numeric_columns = ['lat', 'lon', 'months_open', 'num_items_sold', 'state_pop']
# Make a scatter matrix of numeric columns
pd.plotting.scatter_matrix(markets[____],
# Make figure large to show details
figsize = ____,
# Lower point opacity to show overlap
alpha = ____)
plt.show()