Probeer een 80/20-splitsing

Nu je gegevensset willekeurig is geordend, kun je de eerste 80% opsplitsen in een trainingset en de laatste 20% in een testset. Dat doe je door een splitspunt te kiezen dat ongeveer op 80% van je data ligt:

split <- round(nrow(mydata) * 0.80)

Vervolgens kun je dit punt gebruiken om de eerste 80% van de gegevensset af te splitsen als trainingset:

mydata[1:split, ]

En daarna kun je hetzelfde punt gebruiken om de testset te bepalen:

mydata[(split + 1):nrow(mydata), ]

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Bekijk cursus

Oefeninstructies

Kies een rij-index om op te splitsen zodat het splitspunt ongeveer op 80% van de diamonds-gegevensset ligt. Noem deze index split.
Maak een trainingset met de naam train met die index.
Maak een testset met de naam test met die index.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Determine row to split on: split


# Create train


# Create test

Code bewerken en uitvoeren