Veel variabelen visualiseren
Als je meer variabelen gaat bekijken, wordt het steeds lastiger om ze allemaal tegelijk te plotten. Naast de x- en y-assen voor twee numerieke variabelen kun je kleur gebruiken voor een derde numerieke variabele, en facetten voor categorische variabelen. En dat is zo ongeveer de grens voordat de grafieken te lastig te interpreteren worden. Er zijn gespecialiseerde grafiektypen, zoals correlatie-heatmaps en parallelle-coördinatendiagrammen, die meer variabelen aankunnen, maar die geven je veel minder informatie per variabele en zijn niet ideaal om modelvoorspellingen te visualiseren.
Hier duw je de grenzen van de scatterplot op door de huizenprijs, de afstand tot het MRT-station, het aantal nabijgelegen gemakswinkels en de leeftijd van het huis allemaal samen in één plot te tonen.
taiwan_real_estate is beschikbaar; ggplot2 is geladen.
Deze oefening maakt deel uit van de cursus
Intermediary Regression in R
Oefeninstructies
- Gebruik de
taiwan_real_estate-gegevensset en maak een scatterplot vann_conveniencetegenover de vierkantswortel vandist_to_mrt_m, ingekleurd naarprice_twd_msq. - Gebruik de continue viridis-plasma-kleurenschaal.
- Facetteer de plot met wrapping op
house_age_years.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___