Random Forest: Visualisierung
Jetzt musst du die Vorhersagen visualisieren. Beim Modell der „gradient boosted trees“ hast du ein Streudiagramm von vorhergesagten gegenüber tatsächlichen Werten sowie ein Dichtediagramm der Residuen gezeichnet. Diese Plots passt du jetzt so an, dass die Ergebnisse beider Modelle gleichzeitig dargestellt werden.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Ein lokales Tibble both_responses mit vorhergesagten und tatsächlichen Jahren für beide Modelle ist bereits vordefiniert.
- Aktualisiere das Streudiagramm „vorhergesagt vs. tatsächlich“.
- Verwende den Datensatz
both_responses. - Füge ein Farbästhetik-Mapping hinzu, um jedes Modell in einer anderen Farbe darzustellen. Verwende
color = model. - Zeichne statt Punkten für jedes Modell eine geglättete Kurve mit
geom_smooth().
- Verwende den Datensatz
- Erstelle ein Tibble der Residuen namens
residuals.- Rufe
mutate()aufboth_responsesauf. - Die neue Spalte soll
residualheißen. residualsoll der vorhergesagten Antwort minus der tatsächlichen Antwort entsprechen.
- Rufe
- Aktualisiere das Dichtediagramm der Residuen.
- Füge ein Farbästhetik-Mapping hinzu, um jedes Modell in einer anderen Farbe darzustellen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# both_responses has been pre-defined
both_responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
# Add a smoothed line
___ +
# Add a line at actual = predicted
geom_abline(intercept = 0, slope = 1)
# Create a tibble of residuals
residuals <- ___
# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
# Add a density curve
geom_density() +
# Add a vertical line through zero
geom_vline(xintercept = 0)