Fractionner les données des employés

Le surapprentissage du jeu de données est un problème courant en analytique. Cela se produit lorsqu’un modèle fonctionne bien sur le jeu de données sur lequel il a été développé, mais ne parvient pas à se généraliser en dehors de celui-ci.

On met en place une séparation entraînement/test pour garantir la capacité de généralisation du modèle : vous développez le modèle à partir de l’échantillon d’entraînement, puis vous l’évaluez ensuite sur l’échantillon de test.

Dans cet exercice, vous allez séparer target et features en ensembles d’entraînement et de test, respectivement selon un ratio de 75 %/25 %.

Cet exercice fait partie du cours

<cours>Analytique RH : prédire l’attrition des employés en Python</cours>

Voir le cours

Instructions de l’exercice

Importez train_test_split depuis le module sklearn.model_selection
Utilisez train_test_split() pour diviser votre jeu de données en ensembles d’entraînement et de test
Assignez 25 % de vos observations à l’ensemble de test

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Modifier et exécuter le code