Évaluer quatre catégories
La matrice de confusion est l’outil le plus direct pour inspecter les quatre catégories de résultats : vrais positifs (TP), faux positifs (FP), vrais négatifs (TN) et faux négatifs (FN). Dans cet exercice, vous utiliserez un classifieur d’arbre de décision standard DecisionTreeClassifier() de sklearn sur des données d’exemple de clics et calculerez la répartition des résultats selon ces quatre catégories.
Le module pandas est disponible sous pd dans votre environnement, et le DataFrame d’exemple est chargé sous df. Les variables explicatives sont dans X et la cible dans y. De plus, DecisionTreeClassifier de sklearn.tree est disponible.
Cet exercice fait partie du cours
Prédire le CTR avec le Machine Learning en Python
Instructions
- Créez les séparations entraînement et test pour
Xety. - Définissez un arbre de décision et produisez des prédictions
y_preden ajustant le modèle. - Utilisez la matrice de confusion pour obtenir les effectifs de chaque catégorie de résultats, où
1signifie positif (clic) et0négatif (non-clic). - Par exemple : les vrais négatifs correspondent à
[0,0]et les vrais positifs à[1,1].
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))