Aan de slagGa gratis aan de slag

Van nul tot held

Je beheerst het opstellen van een modelspecificatie en het splitsen van de gegevens in trainings- en testsets. Je weet ook hoe je klassedisbalans in de split voorkomt. Tijd om te combineren wat je in de vorige les hebt geleerd en je model te bouwen met alleen de trainingsset!

Je gaat een echte machine learning-pijplijn bouwen. Die bestaat uit het maken van een modelspecificatie, het splitsen van je gegevens in trainings- en testsets en, last but not least, het fitten van het model op de trainingsgegevens. Veel plezier!

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Cursus bekijken

Oefeninstructies

  • Maak diabetes_split, een split waarbij de trainingsset drie kwart van alle rijen in diabetes bevat en waarbij trainings- en testset een vergelijkbare verdeling hebben voor de variabele outcome.
  • Bouw een beslisboom-specificatie voor je model met de rpart-engine en sla die op als tree_spec.
  • Fit een model model_trained met de trainingsgegevens van diabetes_split, met outcome als doelvariabele en bmi en skin_thickness als voorspellers.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

set.seed(9)

# Create the balanced data split
diabetes_split <- ___

# Build the specification of the model
tree_spec <- ___ %>% 
  ___ %>% 
  ___

# Train the model
model_trained <- ___ %>% 
  fit(___, 
      ___)

model_trained
Code bewerken en uitvoeren