Matriz de dispersión de columnas numéricas
Has explorado los datos nuevos de los mercados de agricultores y son bastante anchos: hay muchas columnas de información por cada fila de mercado. En lugar de revisar una a una todas las combinaciones de columnas numéricas y crear un diagrama de dispersión para ver correlaciones, decides crear una matriz de dispersión usando la función integrada de pandas.
Aumentar el tamaño de la figura con el argumento figsize ayudará a darle aire a una visualización tan densa. Como habrá mucho solapamiento de puntos, reducir la opacidad de los puntos ayudará a mostrar la densidad de esos solapamientos.
Este ejercicio forma parte del curso
Mejora tus visualizaciones de datos en Python
Instrucciones del ejercicio
- Limita las columnas del DataFrame
marketsanumeric_columnspara que la matriz de dispersión muestre solo columnas numéricas no binarias. - Aumenta el tamaño de la figura a
15por10para evitar amontonamientos. - Reduce la opacidad de los puntos al 50% para mostrar las zonas de solapamiento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Select just the numeric columns (exluding individual goods)
numeric_columns = ['lat', 'lon', 'months_open', 'num_items_sold', 'state_pop']
# Make a scatter matrix of numeric columns
pd.plotting.scatter_matrix(markets[____],
# Make figure large to show details
figsize = ____,
# Lower point opacity to show overlap
alpha = ____)
plt.show()