Aan de slagGa gratis aan de slag

Probeer een 80/20-splitsing

Nu je gegevensset willekeurig is geordend, kun je de eerste 80% opsplitsen in een trainingset en de laatste 20% in een testset. Dat doe je door een splitspunt te kiezen dat ongeveer op 80% van je data ligt:

split <- round(nrow(mydata) * 0.80)

Vervolgens kun je dit punt gebruiken om de eerste 80% van de gegevensset af te splitsen als trainingset:

mydata[1:split, ]

En daarna kun je hetzelfde punt gebruiken om de testset te bepalen:

mydata[(split + 1):nrow(mydata), ]

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Cursus bekijken

Oefeninstructies

  • Kies een rij-index om op te splitsen zodat het splitspunt ongeveer op 80% van de diamonds-gegevensset ligt. Noem deze index split.
  • Maak een trainingset met de naam train met die index.
  • Maak een testset met de naam test met die index.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Determine row to split on: split


# Create train


# Create test
Code bewerken en uitvoeren