Probiere einen 80/20‑Split aus
Da dein Datensatz jetzt zufällig angeordnet ist, kannst du die ersten 80 % als Trainingssatz und die letzten 20 % als Testsatz aufteilen. Das gelingt, indem du einen Split-Punkt wählst, der ungefähr bei 80 % deiner Daten liegt:
split <- round(nrow(mydata) * 0.80)
Diesen Punkt kannst du dann verwenden, um die ersten 80 % des Datensatzes als Trainingssatz abzutrennen:
mydata[1:split, ]
Und denselben Punkt kannst du verwenden, um den Testsatz zu bestimmen:
mydata[(split + 1):nrow(mydata), ]
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit caret in R
Anleitung zur Übung
- Wähle einen Zeilenindex für den Split, sodass der Split-Punkt ungefähr bei 80 % des
diamonds-Datensatzes liegt. Nenne diesen Indexsplit. - Erstelle mit diesem Index einen Trainingssatz namens
train. - Erstelle mit diesem Index einen Testsatz namens
test.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Determine row to split on: split
# Create train
# Create test