Opsplitsen in train en test
Nu we een dataframe hebben, kunnen we standaardtechnieken voor modelleren toepassen. In deze oefening splits je de data op in een trainingset en een testset.
Deze oefening maakt deel uit van de cursus
Predictive Analytics met netwerkgdata in R
Oefeninstructies
- Stel voor reproduceerbare resultaten een seed in op 7 met
set.seed(). - Gebruik de functie
sample()om twee derde van de getallen te trekken uit de reeks binnen het bereik van het totale aantal rijen instudentnetworkdata. Noem deze vectorindex_train. - Maak de trainingset door de rijen van
studentnetworkdataop te nemen die zijn opgeslagen inindex_trainen noem dezetraining_set. - Maak de testset door de rijen van
studentnetworkdatauit te sluiten die zijn opgeslagen inindex_trainen noem dezetest_set.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set the seed
set.seed(___)
# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))
# Make the training set
training_set <- ___[index_train,]
# Make the test set
___ <- ___[-index_train,]