Memeriksa rasio penipuan terhadap non-penipuan

Dalam bab ini, Anda akan bekerja dengan creditcard_sampledata.csv, sebuah himpunan data yang berisi data transaksi kartu kredit. Kejadian penipuan untungnya merupakan minoritas yang sangat kecil dalam transaksi ini.

Namun, algoritme Machine Learning biasanya bekerja paling baik ketika kelas-kelas yang berbeda dalam himpunan data hadir kurang lebih seimbang. Jika kasus penipuan sedikit, maka hanya ada sedikit data untuk belajar cara mengidentifikasinya. Ini dikenal sebagai ketidakseimbangan kelas, dan merupakan salah satu tantangan utama dalam deteksi penipuan.

Mari kita jelajahi himpunan data ini, dan amati masalah ketidakseimbangan kelas tersebut.

Latihan ini merupakan bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Instruksi latihan

Impor pandas sebagai pd, baca data kartu kredit dan tetapkan ke df. Ini sudah dilakukan untuk Anda.
Gunakan .info() untuk mencetak informasi tentang df.
Gunakan .value_counts() untuk mendapatkan jumlah transaksi penipuan dan non-penipuan pada kolom 'Class'. Tetapkan hasilnya ke occ.
Dapatkan rasio transaksi penipuan terhadap total jumlah transaksi dalam himpunan data.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import pandas and read csv
import pandas as pd
df = pd.read_csv("creditcard_data.csv")

# Explore the features available in your dataframe
print(df.____)

# Count the occurrences of fraud and no fraud and print them
occ = df['____'].____()
print(occ)

# Print the ratio of fraud cases
print(occ / ____)

Edit dan Jalankan Kode