De test-train-split

In een gedisciplineerde Machine Learning-workflow is het cruciaal om een deel van je data (testdata) buiten elk beslissingsproces te houden. Zo kun je de prestaties van je model onafhankelijk beoordelen zodra het is afgerond. De overige data, de traindata, gebruik je om het beste model te bouwen en te selecteren.

In deze oefening gebruik je het rsample-pakket om je data te splitsen voor de eerste train-test-split van je gapminder-data.

Let op: Omdat dit een willekeurige splitsing is, is het goed om vooraf een seed te zetten.

Deze oefening maakt deel uit van de cursus

Machine Learning in de tidyverse

Bekijk cursus

Oefeninstructies

Split je data in 75% training en 25% testing met de functie initial_split() en wijs deze toe aan gap_split.
Haal het trainings-dataframe uit gap_split met de functie training().
Haal het test-dataframe uit gap_split met de functie testing().
Controleer of de afmetingen van je nieuwe dataframes zijn zoals verwacht met de functie dim() op training_data en testing_data.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Code bewerken en uitvoeren