Modellleistung vergleichen
Das Plotten gibt dir ein gutes Gefühl dafür, wo das Modell gut funktioniert und wo nicht. Manchmal ist es aber hilfreich, eine Kennzahl zu haben, die dem Modell einen Score gibt. So kannst du messen, wie gut ein Modell ist, und viele Modelle miteinander vergleichen. Eine gängige Kennzahl ist der Root Mean Square Error (oft als „RMSE“ abgekürzt). Dabei werden die Residuen quadriert, davon der Mittelwert gebildet und daraus die Quadratwurzel gezogen. Ein kleiner RMSE-Wert für einen gegebenen Datensatz bedeutet bessere Vorhersagen. (Standardmäßig kannst du nicht zwischen verschiedenen Datensätzen vergleichen, sondern nur zwischen verschiedenen Modellen auf demselben Datensatz. Manchmal lassen sich Datensätze normalisieren, um einen Vergleich zu ermöglichen.)
Hier vergleichst du die Modelle Gradient Boosted Trees und Random Forest.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
both_responses, das die vorhergesagte und die tatsächliche Jahreszahl des Tracks aus beiden Modellen enthält, wurde als lokales Tibble vordefiniert.
- Erstelle einen Datensatz mit der Summe der quadrierten Residuen.
- Füge eine Spalte
residualhinzu, die der vorhergesagten minus der tatsächlichen Antwort entspricht. - Gruppiere die Daten nach
model. - Berechne eine Kennzahl
rmse, die der Quadratwurzel aus dem Mittelwert der quadriertenresiduals entspricht.
- Füge eine Spalte
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# both_responses has been pre-defined
both_responses
# Create a residual sum of squares dataset
___