Limiter la taille de l’échantillon
Une autre façon d’éviter le surapprentissage consiste à préciser le nombre minimal d’observations nécessaires pour développer une feuille (ou un nœud) dans un arbre de décision.
Dans cet exercice, vous allez :
- définir cette limite minimale à 100
- ajuster le nouveau modèle aux données des employés
- examiner les résultats de prédiction sur les ensembles d’entraînement et de test
Les variables features_train, target_train, features_test et target_test sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en Python
Instructions
- Initialisez le
DecisionTreeClassifieret définissez la limite minimale de feuilles à 100 observations - Ajustez le modèle d’arbre de décision aux données d’entraînement.
- Vérifiez la précision des prédictions sur les ensembles d’entraînement et de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)