Essayez une répartition 60/40

Comme vous l’avez vu dans la vidéo, vous allez travailler avec le jeu de données Sonar dans ce chapitre, en utilisant 60 % pour l’entraînement et 40 % pour le test. Nous allons refaire une fois le découpage entraînement/test pour être sûrs que vous avez bien compris. Rappelez-vous que vous pouvez utiliser la fonction sample() pour obtenir une permutation aléatoire des indices de lignes d’un jeu de données, à utiliser lors des découpages entraînement/test, par exemple :

n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)

Puis utiliser ces indices de lignes pour réordonner aléatoirement le jeu de données, par exemple :

my_data <- my_data[permuted_rows, ]

Une fois votre jeu de données réordonné aléatoirement, vous pouvez découper les 60 % premières lignes pour l’entraînement et les 40 % dernières pour le test.

Cet exercice fait partie du cours

Machine Learning avec caret en R

Afficher le cours

Instructions

Récupérez le nombre d’observations (lignes) dans Sonar et assignez-le à n_obs.
Mélangez les indices de lignes de Sonar et enregistrez le résultat dans permuted_rows.
Utilisez permuted_rows pour réordonner aléatoirement les lignes de Sonar, et sauvegardez le résultat dans Sonar_shuffled.
Identifiez la ligne sur laquelle effectuer la coupure pour une répartition 60/40. Stockez ce numéro de ligne dans split.
Enregistrez les 60 % premières lignes de Sonar_shuffled comme jeu d’entraînement.
Enregistrez les 40 % dernières lignes de Sonar_shuffled comme jeu de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the number of observations


# Shuffle row indices: permuted_rows


# Randomly order data: Sonar


# Identify row to split on: split
split <- round(n_obs * ___)

# Create train


# Create test

Modifier et exécuter le code