CommencerCommencer gratuitement

Régularisation

La régularisation consiste à ajouter de l’information à un modèle pour éviter le surapprentissage. C’est essentiel pour améliorer les métriques d’évaluation vues plus tôt dans le chapitre. Dans cet exercice, vous allez faire varier le paramètre de profondeur maximale d’un arbre de décision afin d’observer l’impact sur les résultats de classification.

X_train, y_train, X_test, y_test sont disponibles dans votre espace de travail. pandas sous pd, numpy sous np et sklearn sont également disponibles. De plus, confusion_matrix(), precision_score() et recall_score() depuis sklearn.metrics sont à votre disposition.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

  • Créez différents arbres de décision en faisant varier la profondeur maximale de chaque arbre.
  • Pour chaque arbre, entraînez le modèle et générez des prédictions sur les données de test.
  • Évaluez la matrice de confusion, la précision et le rappel pour chaque arbre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Iterate over different levels of max depth
for max_depth_val in [2, 3, 5, 10, 15, 20]:
  # Create and fit model
  clf = ____(____ = max_depth_val)
  print("Evaluating tree with max_depth = %s" %(max_depth_val))
  y_pred = clf.fit(____, ____).predict(____) 
  
  # Evaluate confusion matrix, precision, recall
  print("Confusion matrix: ")
  print(____(y_test, y_pred))
  prec = ____(____, ____, average = 'weighted')
  recall = ____(____, ____, average = 'weighted')
  print("Precision: %s, Recall: %s" %(prec, recall))
Modifier et exécuter le code