Van nul tot held
Je beheerst het opstellen van een modelspecificatie en het splitsen van de gegevens in trainings- en testsets. Je weet ook hoe je klassedisbalans in de split voorkomt. Tijd om te combineren wat je in de vorige les hebt geleerd en je model te bouwen met alleen de trainingsset!
Je gaat een echte machine learning-pijplijn bouwen. Die bestaat uit het maken van een modelspecificatie, het splitsen van je gegevens in trainings- en testsets en, last but not least, het fitten van het model op de trainingsgegevens. Veel plezier!
Deze oefening maakt deel uit van de cursus
Machine Learning met boomgebaseerde modellen in R
Oefeninstructies
- Maak
diabetes_split, een split waarbij de trainingsset drie kwart van alle rijen indiabetesbevat en waarbij trainings- en testset een vergelijkbare verdeling hebben voor de variabeleoutcome. - Bouw een beslisboom-specificatie voor je model met de
rpart-engine en sla die op alstree_spec. - Fit een model
model_trainedmet de trainingsgegevens vandiabetes_split, metoutcomeals doelvariabele enbmienskin_thicknessals voorspellers.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
set.seed(9)
# Create the balanced data split
diabetes_split <- ___
# Build the specification of the model
tree_spec <- ___ %>%
___ %>%
___
# Train the model
model_trained <- ___ %>%
fit(___,
___)
model_trained