Séparer en entraînement et test

Maintenant que nous avons un dataframe, nous pouvons appliquer des techniques standard de modélisation. Dans cet exercice, vous allez diviser les données en ensembles d’entraînement et de test.

Cet exercice fait partie du cours

Analytique prédictive avec des données en réseau sous R

Afficher le cours

Instructions

Pour garantir la reproductibilité de vos résultats, définissez une graine à 7 avec set.seed().
Utilisez la fonction sample() pour échantillonner deux tiers des nombres de la séquence allant de 1 au nombre total de lignes de studentnetworkdata. Nommez ce vecteur index_train.
Créez l’ensemble d’entraînement en incluant les lignes de studentnetworkdata dont les indices sont stockés dans index_train et nommez-le training_set.
Créez l’ensemble de test en excluant les lignes de studentnetworkdata dont les indices sont stockés dans index_train et nommez-le test_set.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set the seed
set.seed(___)

# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))

# Make the training set
training_set <- ___[index_train,]

# Make the test set
___ <- ___[-index_train,]

Modifier et exécuter le code