Rééchantillonnage des données

La première étape d’un projet de Machine Learning consiste à créer des jeux d’entraînement et de test pour l’ajustement du modèle et son évaluation. Le jeu de test permet d’estimer les performances de votre modèle sur de nouvelles données et aide à se prémunir contre le surapprentissage.

Vous allez travailler avec le jeu de données telecom_df, qui contient des informations sur les clients d’un opérateur de télécommunications. La variable cible est canceled_service et indique si un client a résilié son contrat avec l’entreprise. Les variables prédictives décrivent l’usage du téléphone mobile et d’Internet, le type de contrat et les frais mensuels.

Le tibble telecom_df a été chargé dans votre session.

Cet exercice fait partie du cours

Modéliser avec tidymodels en R

Afficher le cours

Instructions

Créez un objet rsample, telecom_split, qui contient les instructions pour diviser aléatoirement les données telecom_df en jeux d’entraînement et de test.
- Allouez 75 % des données à l’entraînement et effectuez une stratification selon canceled_service.
Transmettez l’objet telecom_split aux fonctions rsample appropriées pour créer les jeux d’entraînement et de test.
Vérifiez le nombre de lignes de chaque jeu en les passant à la fonction nrow().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)

Modifier et exécuter le code