Taux de réussite naturel

Dans cet exercice, vous allez de nouveau utiliser des données de transactions par carte bancaire. Les variables explicatives et les étiquettes sont similaires à celles du chapitre précédent, et les données sont très déséquilibrées. Nous vous avons déjà fourni les caractéristiques X et les étiquettes y, toutes deux des tableaux NumPy.

Commencez par analyser la fréquence de la fraude dans l’ensemble de données, afin de comprendre quelle est la « précision naturelle » si l’on prédit tout en non-fraude. Il est important de savoir quel niveau de « précision » vous devez dépasser pour obtenir une prédiction meilleure que ne rien faire. Dans les exercices qui suivent, vous allez créer un premier classifieur random forest pour la détection de fraude. Il servira de modèle « point de référence » que vous chercherez à améliorer dans les prochains exercices.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

Comptez le nombre total d’observations en prenant la longueur de vos étiquettes y.
Comptez les cas de non-fraude dans nos données en utilisant une compréhension de liste sur y ; souvenez-vous que y est un tableau NumPy, donc .value_counts() ne peut pas être utilisé ici.
Calculez la précision naturelle en divisant le nombre de cas de non-fraude par le nombre total d’observations.
Affichez le pourcentage.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Count the total number of observations from the length of y
total_obs = ____

# Count the total number of non-fraudulent observations 
non_fraud = [i for ____ ____ ____ if i == 0]
count_non_fraud = non_fraud.count(0)

# Calculate the percentage of non fraud observations in the dataset
percentage = (float(____)/float(____)) * 100

# Print the percentage: this is our "natural accuracy" by doing nothing
____(____)

Modifier et exécuter le code