Aan de slagGa gratis aan de slag

Veel variabelen visualiseren

Als je meer variabelen gaat bekijken, wordt het steeds lastiger om ze allemaal tegelijk te plotten. Naast de x- en y-assen voor twee numerieke variabelen kun je kleur gebruiken voor een derde numerieke variabele, en facetten voor categorische variabelen. En dat is zo ongeveer de grens voordat de grafieken te lastig te interpreteren worden. Er zijn gespecialiseerde grafiektypen, zoals correlatie-heatmaps en parallelle-coördinatendiagrammen, die meer variabelen aankunnen, maar die geven je veel minder informatie per variabele en zijn niet ideaal om modelvoorspellingen te visualiseren.

Hier duw je de grenzen van de scatterplot op door de huizenprijs, de afstand tot het MRT-station, het aantal nabijgelegen gemakswinkels en de leeftijd van het huis allemaal samen in één plot te tonen.

taiwan_real_estate is beschikbaar; ggplot2 is geladen.

Deze oefening maakt deel uit van de cursus

Intermediary Regression in R

Cursus bekijken

Oefeninstructies

  • Gebruik de taiwan_real_estate-gegevensset en maak een scatterplot van n_convenience tegenover de vierkantswortel van dist_to_mrt_m, ingekleurd naar price_twd_msq.
  • Gebruik de continue viridis-plasma-kleurenschaal.
  • Facetteer de plot met wrapping op house_age_years.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
  # Make it a scatter plot
  ___ +
  # Use the continuous viridis plasma color scale
  ___ +
  # Facet, wrapped by house age
  ___
Code bewerken en uitvoeren