ComenzarEmpieza gratis

Matriz de dispersión de columnas numéricas

Has explorado los datos nuevos de los mercados de agricultores y son bastante anchos: hay muchas columnas de información por cada fila de mercado. En lugar de revisar una a una todas las combinaciones de columnas numéricas y crear un diagrama de dispersión para ver correlaciones, decides crear una matriz de dispersión usando la función integrada de pandas.

Aumentar el tamaño de la figura con el argumento figsize ayudará a darle aire a una visualización tan densa. Como habrá mucho solapamiento de puntos, reducir la opacidad de los puntos ayudará a mostrar la densidad de esos solapamientos.

Este ejercicio forma parte del curso

Mejora tus visualizaciones de datos en Python

Ver curso

Instrucciones del ejercicio

  • Limita las columnas del DataFrame markets a numeric_columns para que la matriz de dispersión muestre solo columnas numéricas no binarias.
  • Aumenta el tamaño de la figura a 15 por 10 para evitar amontonamientos.
  • Reduce la opacidad de los puntos al 50% para mostrar las zonas de solapamiento.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Select just the numeric columns (exluding individual goods)
numeric_columns = ['lat', 'lon', 'months_open', 'num_items_sold', 'state_pop']

# Make a scatter matrix of numeric columns
pd.plotting.scatter_matrix(markets[____], 
                             # Make figure large to show details
                             figsize = ____, 
                           # Lower point opacity to show overlap
                           alpha = ____)

plt.show()
Editar y ejecutar código