CommencerCommencer gratuitement

Limiter la taille de l’échantillon

Une autre façon d’éviter le surapprentissage consiste à préciser le nombre minimal d’observations nécessaires pour développer une feuille (ou un nœud) dans un arbre de décision.

Dans cet exercice, vous allez :

  • définir cette limite minimale à 100
  • ajuster le nouveau modèle aux données des employés
  • examiner les résultats de prédiction sur les ensembles d’entraînement et de test

Les variables features_train, target_train, features_test et target_test sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Analytique RH : prédire l’attrition des employés en Python

Afficher le cours

Instructions

  • Initialisez le DecisionTreeClassifier et définissez la limite minimale de feuilles à 100 observations
  • Ajustez le modèle d’arbre de décision aux données d’entraînement.
  • Vérifiez la précision des prédictions sur les ensembles d’entraînement et de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)
Modifier et exécuter le code