Seuil par défaut
Vous souhaitez vérifier que DecisionTreeClassifier() utilise bien le même seuil de classification par défaut que celui mentionné dans la leçon précédente, à savoir 0,5. Il vous semble étrange que tous les classifieurs utilisent le même seuil. Vérifions ! Un arbre de décision entraîné clf a été préchargé pour vous, ainsi que les jeux d’entraînement et de test avec leurs noms habituels : X_train, X_test, y_train et y_test. Vous devrez extraire des scores de probabilité du classifieur à l’aide de la méthode .predict_proba().
Cet exercice fait partie du cours
Concevoir des workflows de Machine Learning en Python
Instructions
- Produisez les scores pour les exemples de test à l’aide du classifieur préchargé
clf. - Extrayez maintenant les étiquettes à partir de ces scores. Rappelez-vous que vous avez une paire de scores pour chaque exemple, et que le deuxième élément correspond à la probabilité de la classe positive.
- Étiquetez ensuite les données de test à l’aide de la méthode standard
.predict(). - Enfin, comparez avec les prédictions obtenues précédemment. Sont-elles identiques ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Score the test data using the given classifier
scores = clf.____(____)
# Get labels from the scores using the default threshold
preds = [s[____] > ____ for s in scores]
# Use the predict method to label the test data again
preds_default = clf.____(____)
# Compare the two sets of predictions
____(preds == preds_default)