Trainings- en testgegevenssets maken
Het rsample-pakket is bedoeld om trainings- en testgegevenssets te maken. Een testgegevensset is belangrijk om in te schatten hoe een getraind model waarschijnlijk presteert op nieuwe data. Het beschermt ook tegen overfitting, waarbij een model patronen onthoudt die alleen in de trainingsdata voorkomen en daardoor slecht presteert op nieuwe data.
In deze oefening maak je uit de home_sales-data trainings- en testgegevenssets. Deze data bevat informatie over huizen die zijn verkocht in de regio Seattle, Washington, tussen 2015 en 2016.
De uitkomstvariabele in deze data is selling_price.
Het tidymodels-pakket is in elke oefening van de cursus vooraf geladen. De home_sales-tibble is ook voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Modelleren met tidymodels in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a data split object
home_split <- ___(home_sales,
prop = ___,
strata = ___)