CommencerCommencer gratuitement

Évaluer quatre catégories

La matrice de confusion est l’outil le plus direct pour inspecter les quatre catégories de résultats : vrais positifs (TP), faux positifs (FP), vrais négatifs (TN) et faux négatifs (FN). Dans cet exercice, vous utiliserez un classifieur d’arbre de décision standard DecisionTreeClassifier() de sklearn sur des données d’exemple de clics et calculerez la répartition des résultats selon ces quatre catégories.

Le module pandas est disponible sous pd dans votre environnement, et le DataFrame d’exemple est chargé sous df. Les variables explicatives sont dans X et la cible dans y. De plus, DecisionTreeClassifier de sklearn.tree est disponible.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

  • Créez les séparations entraînement et test pour X et y.
  • Définissez un arbre de décision et produisez des prédictions y_pred en ajustant le modèle.
  • Utilisez la matrice de confusion pour obtenir les effectifs de chaque catégorie de résultats, où 1 signifie positif (clic) et 0 négatif (non-clic).
  • Par exemple : les vrais négatifs correspondent à [0,0] et les vrais positifs à [1,1].

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
  X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test) 

# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]

print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))
Modifier et exécuter le code