LoslegenKostenlos loslegen

Modellleistung vergleichen

Das Plotten gibt dir ein gutes Gefühl dafür, wo das Modell gut funktioniert und wo nicht. Manchmal ist es aber hilfreich, eine Kennzahl zu haben, die dem Modell einen Score gibt. So kannst du messen, wie gut ein Modell ist, und viele Modelle miteinander vergleichen. Eine gängige Kennzahl ist der Root Mean Square Error (oft als „RMSE“ abgekürzt). Dabei werden die Residuen quadriert, davon der Mittelwert gebildet und daraus die Quadratwurzel gezogen. Ein kleiner RMSE-Wert für einen gegebenen Datensatz bedeutet bessere Vorhersagen. (Standardmäßig kannst du nicht zwischen verschiedenen Datensätzen vergleichen, sondern nur zwischen verschiedenen Modellen auf demselben Datensatz. Manchmal lassen sich Datensätze normalisieren, um einen Vergleich zu ermöglichen.)

Hier vergleichst du die Modelle Gradient Boosted Trees und Random Forest.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

both_responses, das die vorhergesagte und die tatsächliche Jahreszahl des Tracks aus beiden Modellen enthält, wurde als lokales Tibble vordefiniert.

  • Erstelle einen Datensatz mit der Summe der quadrierten Residuen.
    • Füge eine Spalte residual hinzu, die der vorhergesagten minus der tatsächlichen Antwort entspricht.
    • Gruppiere die Daten nach model.
    • Berechne eine Kennzahl rmse, die der Quadratwurzel aus dem Mittelwert der quadrierten residuals entspricht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# both_responses has been pre-defined
both_responses

# Create a residual sum of squares dataset
___
Code bearbeiten und ausführen