Limiter la taille de l’échantillon

Une autre façon d’éviter le surapprentissage consiste à préciser le nombre minimal d’observations nécessaires pour développer une feuille (ou un nœud) dans un arbre de décision.

Dans cet exercice, vous allez :

définir cette limite minimale à 100
ajuster le nouveau modèle aux données des employés
examiner les résultats de prédiction sur les ensembles d’entraînement et de test

Les variables features_train, target_train, features_test et target_test sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Analytique RH : prédire l’attrition des employés en Python</cours>

Voir le cours

Instructions de l’exercice

Initialisez le DecisionTreeClassifier et définissez la limite minimale de feuilles à 100 observations
Ajustez le modèle d’arbre de décision aux données d’entraînement.
Vérifiez la précision des prédictions sur les ensembles d’entraînement et de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)

Modifier et exécuter le code