Viele Variablen visualisieren
Wenn du mehr Variablen betrachtest, wird es immer schwieriger, sie alle gleichzeitig zu plotten. Zusätzlich zu x- und y-Achsen für zwei numerische Variablen kannst du Farbe für eine dritte numerische Variable verwenden und Faceting für kategoriale Variablen. Und das ist ungefähr das Limit, bevor die Plots zu schwer zu interpretieren werden. Es gibt einige spezialisierte Plottypen wie Korrelations-Heatmaps und Parallelkoordinaten-Plots, die mit mehr Variablen umgehen können, aber sie liefern deutlich weniger Informationen zu jeder einzelnen Variable und eignen sich nicht gut, um Modellvorhersagen zu visualisieren.
Hier reizt du die Möglichkeiten des Streudiagramms aus, indem du den Hauspreis, die Entfernung zur MRT-Station, die Anzahl der nahegelegenen Convenience Stores und das Alter des Hauses gemeinsam in einem Plot darstellst.
taiwan_real_estate ist verfügbar; ggplot2 ist geladen.
Diese Übung ist Teil des Kurses
Fortgeschrittene Regression in R
Anleitung zur Übung
- Zeichne mit dem Datensatz
taiwan_real_estateein Streudiagramm vonn_conveniencegegen die Quadratwurzel vondist_to_mrt_m, eingefärbt nachprice_twd_msq. - Verwende die kontinuierliche viridis-Farbschattierung "plasma".
- Facette den Plot, mit Wrap nach
house_age_years.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___