De test-train-split
In een gedisciplineerde Machine Learning-workflow is het cruciaal om een deel van je data (testdata) buiten elk beslissingsproces te houden. Zo kun je de prestaties van je model onafhankelijk beoordelen zodra het is afgerond. De overige data, de traindata, gebruik je om het beste model te bouwen en te selecteren.
In deze oefening gebruik je het rsample-pakket om je data te splitsen voor de eerste train-test-split van je gapminder-data.
Let op: Omdat dit een willekeurige splitsing is, is het goed om vooraf een seed te zetten.
Deze oefening maakt deel uit van de cursus
Machine Learning in de tidyverse
Oefeninstructies
- Split je data in 75% training en 25% testing met de functie
initial_split()en wijs deze toe aangap_split. - Haal het trainings-dataframe uit
gap_splitmet de functietraining(). - Haal het test-dataframe uit
gap_splitmet de functietesting(). - Controleer of de afmetingen van je nieuwe dataframes zijn zoals verwacht met de functie
dim()optraining_dataentesting_data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)