CommencerCommencer gratuitement

Essayez une répartition 80/20

Maintenant que votre jeu de données est mélangé aléatoirement, vous pouvez en séparer les 80 % premiers pour l’ensemble d’entraînement et les 20 % restants pour l’ensemble de test. Pour cela, choisissez un point de coupure à environ 80 % de vos données :

split <- round(nrow(mydata) * 0.80)

Vous pouvez ensuite utiliser ce point pour extraire les 80 % premiers du jeu de données comme ensemble d’entraînement :

mydata[1:split, ]

Et vous pouvez utiliser ce même point pour déterminer l’ensemble de test :

mydata[(split + 1):nrow(mydata), ]

Cet exercice fait partie du cours

Machine Learning avec caret en R

Afficher le cours

Instructions

  • Choisissez un indice de ligne pour effectuer la séparation de sorte que le point de coupure se situe à environ 80 % du jeu de données diamonds. Nommez cet indice split.
  • Créez un ensemble d’entraînement appelé train en utilisant cet indice.
  • Créez un ensemble de test appelé test en utilisant cet indice.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Determine row to split on: split


# Create train


# Create test
Modifier et exécuter le code