Visualizar muchas variables
A medida que empiezas a considerar más variables, trazarlas todas al mismo tiempo resulta cada vez más difícil. Además de utilizar escalas x e y para dos variables numéricas, puedes utilizar el color para una tercera variable numérica, y puedes utilizar facetas para variables categóricas. Y ése es tu límite antes de que las tramas se vuelvan difíciles de interpretar. Hay algunos tipos de gráficos especializados, como los mapas térmicos de correlación y los gráficos de coordenadas paralelas, que pueden manejar más variables, pero te dan mucha menos información sobre cada variable y no son muy buenos para visualizar las predicciones del modelo.
Aquí superarás los límites del gráfico de dispersión mostrando el precio de la vivienda, la distancia a la estación MRT, el número de tiendas cercanas y la antigüedad de la vivienda, todo junto en un solo gráfico.
taiwan_real_estate
está disponible; ggplot2
está cargado.
Este ejercicio forma parte del curso
Regresión intermedia en R
Instrucciones de ejercicio
- Utilizando el conjunto de datos
taiwan_real_estate
, dibuja un diagrama de dispersión den_convenience
frente a la raíz cuadrada dedist_to_mrt_m
, coloreado porprice_twd_msq
. - Utiliza la escala de color continua del plasma viridis.
- Facetar la trama, envolviéndola con
house_age_years
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___