In-Sample-RMSE für lineare Regression auf diamonds
Wie du im Video gesehen hast, ist in diesem Kurs der Datensatz diamonds enthalten, ein klassischer Datensatz aus dem Paket ggplot2. Der Datensatz enthält physische Merkmale von Diamanten sowie den erzielten Verkaufspreis. Eine interessante Modellierungsaufgabe ist es, den Diamantpreis anhand seiner Merkmale vorherzusagen, zum Beispiel mit einer linearen Regression.
Zur Erinnerung: Um eine lineare Regression zu schätzen, verwendest du die Funktion lm() im folgenden Format:
mod <- lm(y ~ x, my_data)
Um mit mod Vorhersagen auf den Originaldaten zu machen, rufst du die Funktion predict() auf:
pred <- predict(mod, my_data)
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit caret in R
Anleitung zur Übung
- Schätze ein lineares Modell auf dem Datensatz
diamonds, daspricemit allen anderen Variablen als Prädiktoren vorhersagt (alsoprice ~ .). Speichere das Ergebnis inmodel. - Erstelle mit
modelVorhersagen auf dem vollständigen Originaldatensatz und speichere das Ergebnis inp. - Berechne die Fehler mit der Formel \(errors = predicted - actual\). Speichere das Ergebnis in
error. - Berechne die RMSE mit der Formel aus dem Video und gib sie in der Konsole aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit lm model: model
# Predict on full data: p
# Compute errors: error
# Calculate RMSE