Aan de slagGa gratis aan de slag

Trainings- en testgegevenssets maken

Het splitsen van een gegevensset in een trainings- en testset is een belangrijke stap bij het bouwen en testen van een classificatiemodel. De trainingsset wordt gebruikt om het model te bouwen en de testset om de voorspellende nauwkeurigheid te evalueren.

In deze oefening splits je de gegevensset die je in het vorige hoofdstuk hebt gemaakt in een trainings- en testset. De gegevensset is ingeladen in het data frame df en er is al een seed gezet om reproduceerbaarheid te garanderen. Denk eraan dat we in de vorige video de bovengrens voor de lengte van de trainingsset hebben ingesteld met een paar handige functies — nu is het jouw beurt om ze te gebruiken!

Deze oefening maakt deel uit van de cursus

Support Vector Machines in R

Cursus bekijken

Oefeninstructies

  • Bepaal de bovengrens voor het aantal rijen in de trainingsset en sla dit op in sample_size.
  • Maak de vector train die de willekeurig toegewezen trainingsset opslaat volgens de 80/20-verhouding.
  • Wijs de rijen in de vector train toe aan het data frame trainset en de rest aan het data frame testset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))

# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)

# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]
Code bewerken en uitvoeren