In Train und Test aufteilen
Jetzt, da wir ein Dataframe haben, können wir Standardmethoden fürs Modellieren anwenden. In dieser Übung teilst du die Daten in Trainings- und Testsätze auf.
Diese Übung ist Teil des Kurses
Predictive Analytics mit vernetzten Daten in R
Anleitung zur Übung
- Um die Reproduzierbarkeit deiner Ergebnisse sicherzustellen, setze den Seed mit
set.seed()auf 7. - Verwende die Funktion
sample(), um zwei Drittel der Zahlen aus der Sequenz im Bereich der Gesamtzahl der Zeilen instudentnetworkdatazu ziehen. Nenne diesen Vektorindex_train. - Erstelle den Trainingssatz, indem du die Zeilen von
studentnetworkdataeinschließt, die inindex_trainenthalten sind, und nenne ihntraining_set. - Erstelle den Testsatz, indem du die Zeilen von
studentnetworkdataausschließt, die inindex_trainenthalten sind, und nenne ihntest_set.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set the seed
set.seed(___)
# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))
# Make the training set
training_set <- ___[index_train,]
# Make the test set
___ <- ___[-index_train,]