Essayez une répartition 80/20
Maintenant que votre jeu de données est mélangé aléatoirement, vous pouvez en séparer les 80 % premiers pour l’ensemble d’entraînement et les 20 % restants pour l’ensemble de test. Pour cela, choisissez un point de coupure à environ 80 % de vos données :
split <- round(nrow(mydata) * 0.80)
Vous pouvez ensuite utiliser ce point pour extraire les 80 % premiers du jeu de données comme ensemble d’entraînement :
mydata[1:split, ]
Et vous pouvez utiliser ce même point pour déterminer l’ensemble de test :
mydata[(split + 1):nrow(mydata), ]
Cet exercice fait partie du cours
Machine Learning avec caret en R
Instructions
- Choisissez un indice de ligne pour effectuer la séparation de sorte que le point de coupure se situe à environ 80 % du jeu de données
diamonds. Nommez cet indicesplit. - Créez un ensemble d’entraînement appelé
trainen utilisant cet indice. - Créez un ensemble de test appelé
testen utilisant cet indice.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Determine row to split on: split
# Create train
# Create test