Probeer een 80/20-splitsing
Nu je gegevensset willekeurig is geordend, kun je de eerste 80% opsplitsen in een trainingset en de laatste 20% in een testset. Dat doe je door een splitspunt te kiezen dat ongeveer op 80% van je data ligt:
split <- round(nrow(mydata) * 0.80)
Vervolgens kun je dit punt gebruiken om de eerste 80% van de gegevensset af te splitsen als trainingset:
mydata[1:split, ]
En daarna kun je hetzelfde punt gebruiken om de testset te bepalen:
mydata[(split + 1):nrow(mydata), ]
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Oefeninstructies
- Kies een rij-index om op te splitsen zodat het splitspunt ongeveer op 80% van de
diamonds-gegevensset ligt. Noem deze indexsplit. - Maak een trainingset met de naam
trainmet die index. - Maak een testset met de naam
testmet die index.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Determine row to split on: split
# Create train
# Create test