Opsplitsen in train en test

Nu we een dataframe hebben, kunnen we standaardtechnieken voor modelleren toepassen. In deze oefening splits je de data op in een trainingset en een testset.

Deze oefening maakt deel uit van de cursus

Predictive Analytics met netwerkgdata in R

Bekijk cursus

Oefeninstructies

Stel voor reproduceerbare resultaten een seed in op 7 met set.seed().
Gebruik de functie sample() om twee derde van de getallen te trekken uit de reeks binnen het bereik van het totale aantal rijen in studentnetworkdata. Noem deze vector index_train.
Maak de trainingset door de rijen van studentnetworkdata op te nemen die zijn opgeslagen in index_train en noem deze training_set.
Maak de testset door de rijen van studentnetworkdata uit te sluiten die zijn opgeslagen in index_train en noem deze test_set.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set the seed
set.seed(___)

# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))

# Make the training set
training_set <- ___[index_train,]

# Make the test set
___ <- ___[-index_train,]

Code bewerken en uitvoeren