Trainings- und Testdatensätze erstellen
Einen Datensatz in Trainings- und Testmenge zu teilen, ist ein wichtiger Schritt beim Erstellen und Testen eines Klassifikationsmodells. Die Trainingsmenge wird verwendet, um das Modell zu erstellen, und die Testmenge, um seine Vorhersagegenauigkeit zu bewerten.
In dieser Übung teilst du den Datensatz, den du im vorherigen Kapitel erstellt hast, in Trainings- und Testmenge auf. Der Datensatz wurde bereits im Data Frame df geladen, und ein Seed wurde gesetzt, um die Reproduzierbarkeit sicherzustellen. Erinnere dich: Im vorherigen Video haben wir die Obergrenze für die Länge der Trainingsmenge mit praktischen Funktionen festgelegt – jetzt bist du dran, sie umzusetzen!
Diese Übung ist Teil des Kurses
Support Vector Machines in R
Anleitung zur Übung
- Bestimme die Obergrenze für die Anzahl der Zeilen in der Trainingsmenge und speichere sie in
sample_size. - Erstelle den Vektor
train, der die zufällig zugewiesene Trainingsmenge gemäß dem 80/20-Verhältnis speichert. - Weise die Zeilen im Vektor
traindem Data Frametrainsetzu und den Rest dem Data Frametestset.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]