Visualizar muchas variables
A medida que empiezas a considerar más variables, representarlas todas a la vez se vuelve cada vez más difícil. Además de usar los ejes x e y para dos variables numéricas, puedes usar el color para una tercera variable numérica y el facetado para variables categóricas. Y ese es más o menos el límite antes de que los gráficos se vuelvan demasiado difíciles de interpretar. Existen algunos tipos de gráficos especializados, como los mapas de calor de correlación y las coordenadas paralelas, que manejan más variables, pero ofrecen mucha menos información sobre cada variable y no son ideales para visualizar predicciones de modelos.
Aquí vas a llevar al límite el diagrama de dispersión mostrando, en un único gráfico, el precio de la vivienda, la distancia a la estación de MRT, el número de tiendas de conveniencia cercanas y la antigüedad de la vivienda.
taiwan_real_estate está disponible; ggplot2 está cargado.
Este ejercicio forma parte del curso
Regresión intermedia en R
Instrucciones del ejercicio
- Con el conjunto de datos
taiwan_real_estate, dibuja un diagrama de dispersión den_conveniencefrente a la raíz cuadrada dedist_to_mrt_m, coloreado porprice_twd_msq. - Usa la escala de color continua viridis plasma.
- Faceta el gráfico, envolviendo por
house_age_years.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___