CommencerCommencer gratuitement

Faire varier la taille de l'ensemble d'entraînement

La taille de vos ensembles d'entraînement et de test influence les performances du modèle. Les modèles apprennent mieux lorsqu'ils disposent de plus de données d'entraînement. Cependant, ils risquent alors de surapprendre ces données et de mal généraliser à de nouvelles données ; pour évaluer correctement la capacité de généralisation du modèle, il faut donc suffisamment de données de test. Il y a ainsi un équilibre important à trouver entre la part utilisée pour l'entraînement et celle conservée pour le test.

Jusqu'ici, vous avez utilisé 70 % pour l'entraînement et 30 % pour le test. Utilisons maintenant 80 % des données pour l'entraînement et évaluons l'impact sur les performances du modèle.

Cet exercice fait partie du cours

Marketing Analytics : prédire l’attrition client en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import train_test_split
from sklearn.model_selection import train_test_split

# Create feature variable
X = telco.drop('Churn', axis=1)

# Create target variable
y = telco['Churn']

# Create training and testing sets
X_train, X_test, y_train, y_test = ____
Modifier et exécuter le code