Maak de folds
Je data slechts één keer splitsen in trainings- en testsets heeft statistische onzekerheden: er is een kleine kans dat je testset alleen hoog beoordeelde bonen bevat, terwijl alle laag beoordeelde bonen in je trainingsset zitten. Het betekent ook dat je de prestaties van je model maar één keer kunt meten.
Cross-validatie geeft je een robuustere schatting van je out-of-sample prestaties zonder de statistische valkuilen: zo beoordeel je je model grondiger.
In deze oefening maak je folds van je trainingsdata chocolate_train, die al is ingeladen.
Deze oefening maakt deel uit van de cursus
Machine Learning met boomgebaseerde modellen in R
Oefeninstructies
- Stel een seed van 20 in voor reproduceerbaarheid.
- Maak 10 folds van
chocolate_trainen sla het resultaat op alschocolate_folds.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set seed for reproducibility
___
# Build 10 folds
chocolate_folds <- ___(___, v = ___)
print(chocolate_folds)