Séparer en entraînement et test
Maintenant que nous avons un dataframe, nous pouvons appliquer des techniques standard de modélisation. Dans cet exercice, vous allez diviser les données en ensembles d’entraînement et de test.
Cet exercice fait partie du cours
Analytique prédictive avec des données en réseau sous R
Instructions
- Pour garantir la reproductibilité de vos résultats, définissez une graine à 7 avec
set.seed(). - Utilisez la fonction
sample()pour échantillonner deux tiers des nombres de la séquence allant de 1 au nombre total de lignes destudentnetworkdata. Nommez ce vecteurindex_train. - Créez l’ensemble d’entraînement en incluant les lignes de
studentnetworkdatadont les indices sont stockés dansindex_trainet nommez-letraining_set. - Créez l’ensemble de test en excluant les lignes de
studentnetworkdatadont les indices sont stockés dansindex_trainet nommez-letest_set.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set the seed
set.seed(___)
# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))
# Make the training set
training_set <- ___[index_train,]
# Make the test set
___ <- ___[-index_train,]