Utiliser la classification ML pour détecter la fraude
Dans cet exercice, vous allez voir ce qui se passe lorsque vous utilisez à la place un modèle simple de Machine Learning sur nos données de cartes bancaires.
Pensez-vous pouvoir battre ces résultats ? Rappelez-vous : vous avez prédit 22 cas de fraude sur 50 et compté 16 faux positifs.
Avec cela en tête, implémentons un modèle de régression logistique. Si vous avez suivi le cours sur l’apprentissage supervisé en Python, ce modèle vous est familier. Sinon, c’est peut‑être le moment de vous rafraîchir la mémoire. Mais pas d’inquiétude, nous allons vous guider pas à pas dans la structure du modèle de Machine Learning.
Les variables X et y sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Divisez
Xetyen apprentissage et test, en conservant 30 % des données pour le test. - Ajustez votre modèle sur les données d’apprentissage.
- Obtenez les étiquettes prédites du modèle en exécutant
model.predictsurX_test. - Établissez un rapport de classification en comparant
y_testavecpredicted, et utilisez la matrice de confusion fournie pour vérifier vos résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the training and testing sets
X_train, X_test, y_train, y_test = train_test_split(____, ____, test_size=____, random_state=0)
# Fit a logistic regression model to our data
model = LogisticRegression()
model.fit(____, ____)
# Obtain model predictions
predicted = model.predict(____)
# Print the classifcation report and confusion matrix
print('Classification report:\n', classification_report(____, ____))
conf_mat = confusion_matrix(y_true=y_test, y_pred=predicted)
print('Confusion matrix:\n', conf_mat)