Rééchantillonnage des données
La première étape d’un projet de Machine Learning consiste à créer des jeux d’entraînement et de test pour l’ajustement du modèle et son évaluation. Le jeu de test permet d’estimer les performances de votre modèle sur de nouvelles données et aide à se prémunir contre le surapprentissage.
Vous allez travailler avec le jeu de données telecom_df, qui contient des informations sur les clients d’un opérateur de télécommunications. La variable cible est canceled_service et indique si un client a résilié son contrat avec l’entreprise. Les variables prédictives décrivent l’usage du téléphone mobile et d’Internet, le type de contrat et les frais mensuels.
Le tibble telecom_df a été chargé dans votre session.
Cet exercice fait partie du cours
Modéliser avec tidymodels en R
Instructions
- Créez un objet
rsample,telecom_split, qui contient les instructions pour diviser aléatoirement les donnéestelecom_dfen jeux d’entraînement et de test.- Allouez 75 % des données à l’entraînement et effectuez une stratification selon
canceled_service.
- Allouez 75 % des données à l’entraînement et effectuez une stratification selon
- Transmettez l’objet
telecom_splitaux fonctionsrsampleappropriées pour créer les jeux d’entraînement et de test. - Vérifiez le nombre de lignes de chaque jeu en les passant à la fonction
nrow().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)