CommencerCommencer gratuitement

Analyse des coûts en conditions réelles

Vous allez continuer à travailler sur le jeu de données de crédit pour cet exercice. Rappelez-vous qu’un « positif » dans ce jeu signifie « mauvais crédit », c’est-à-dire un client qui a fait défaut sur son prêt, et un « négatif » désigne un client qui a continué à payer sans problème. Le directeur de la banque vous a indiqué que la banque réalise en moyenne 10 K de profit pour chaque client « bon risque », mais perd 150 K pour chaque client « mauvais risque ». Votre algorithme sera utilisé pour présélectionner les demandeurs : ceux étiquetés « négatif » se verront accorder un prêt, et les « positif » seront refusés. Quel est le coût total de votre classifieur ? Les données sont disponibles sous X_train, X_test, y_train et y_test. Les fonctions confusion_matrix(), f1_score(), precision_score() et RandomForestClassifier() sont disponibles.

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

  • Ajustez un classifieur de forêt aléatoire sur les données d’entraînement.
  • Utilisez-le pour étiqueter les données de test.
  • Extrayez les faux négatifs et les faux positifs depuis confusion_matrix(). Vous devrez aplatir la matrice.
  • Classer à tort un client « bon payeur » comme « mauvais payeur » signifie que la banque perd l’occasion de réaliser un profit de 10 K. Classer à tort un client « mauvais payeur » comme « bon payeur » signifie que la banque perd 150 K en raison du défaut de paiement du client.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit a random forest classifier to the training data
clf = ____(random_state=2).fit(____, ____)

# Label the test data
preds = clf.____(____)

# Get false positives/negatives from the confusion matrix
tn, ____, ____, tp = confusion_matrix(y_test, preds).____()

# Now compute the cost using the manager's advice
cost = fp*____ + fn*____
Modifier et exécuter le code