Créer des jeux d’entraînement et de test
Diviser un jeu de données en jeux d’entraînement et de test est une étape essentielle pour construire et évaluer un modèle de classification. Le jeu d’entraînement sert à construire le modèle et le jeu de test à évaluer sa précision prédictive.
Dans cet exercice, vous allez scinder le jeu de données que vous avez créé au chapitre précédent en jeux d’entraînement et de test. Le jeu de données a été chargé dans le data frame df et une graine a déjà été fixée pour garantir la reproductibilité. Rappelez-vous que, dans la vidéo précédente, nous avons défini la borne supérieure pour la taille du jeu d’entraînement à l’aide de fonctions pratiques — c’est maintenant à vous de les mettre en œuvre !
Cet exercice fait partie du cours
Machines à vecteurs de support en R
Instructions
- Déterminez la borne supérieure du nombre de lignes à inclure dans le jeu d’entraînement et stockez-la dans
sample_size. - Créez le vecteur
trainqui stocke l’affectation aléatoire au jeu d’entraînement selon la proportion 80/20. - Assignez les lignes du vecteur
trainau data frametrainsetet le reste au data frametestset.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]