Fractionner les données des employés
Le surapprentissage du jeu de données est un problème courant en analytique. Cela se produit lorsqu’un modèle fonctionne bien sur le jeu de données sur lequel il a été développé, mais ne parvient pas à se généraliser en dehors de celui-ci.
On met en place une séparation entraînement/test pour garantir la capacité de généralisation du modèle : vous développez le modèle à partir de l’échantillon d’entraînement, puis vous l’évaluez ensuite sur l’échantillon de test.
Dans cet exercice, vous allez séparer target et features en ensembles d’entraînement et de test, respectivement selon un ratio de 75 %/25 %.
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en Python
Instructions
- Importez
train_test_splitdepuis le modulesklearn.model_selection - Utilisez
train_test_split()pour diviser votre jeu de données en ensembles d’entraînement et de test - Assignez 25 % de vos observations à l’ensemble de test
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)