In-sample RMSE voor lineaire regressie op diamonds
Zoals je in de video zag, is in de cursus de diamonds-gegevensset opgenomen, een klassieke gegevensset uit het ggplot2-pakket. De gegevensset bevat fysieke eigenschappen van diamanten en de prijs waarvoor ze zijn verkocht. Een interessante modelleeruitdaging is het voorspellen van de diamantprijs op basis van die eigenschappen met bijvoorbeeld een lineaire regressie.
Onthoud dat je voor het fitten van een lineaire regressie de functie lm() gebruikt in het volgende formaat:
mod <- lm(y ~ x, my_data)
Om met mod voorspellingen te doen op de originele data, roep je de functie predict() aan:
pred <- predict(mod, my_data)
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Oefeninstructies
- Fit een lineair model op de
diamonds-gegevensset waarin jepricevoorspelt met alle andere variabelen als voorspellers (dusprice ~ .). Sla het resultaat op inmodel. - Maak met
modelvoorspellingen op de volledige oorspronkelijke gegevensset en sla het resultaat op inp. - Bereken de fouten met de formule \(errors = predicted - actual\). Sla het resultaat op in
error. - Bereken de RMSE met de formule die je in de video hebt geleerd en print deze naar de console.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit lm model: model
# Predict on full data: p
# Compute errors: error
# Calculate RMSE