Memeriksa rasio penipuan terhadap non-penipuan
Dalam bab ini, Anda akan bekerja dengan creditcard_sampledata.csv, sebuah himpunan data yang berisi data transaksi kartu kredit. Kejadian penipuan untungnya merupakan minoritas yang sangat kecil dalam transaksi ini.
Namun, algoritme Machine Learning biasanya bekerja paling baik ketika kelas-kelas yang berbeda dalam himpunan data hadir kurang lebih seimbang. Jika kasus penipuan sedikit, maka hanya ada sedikit data untuk belajar cara mengidentifikasinya. Ini dikenal sebagai ketidakseimbangan kelas, dan merupakan salah satu tantangan utama dalam deteksi penipuan.
Mari kita jelajahi himpunan data ini, dan amati masalah ketidakseimbangan kelas tersebut.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Impor
pandassebagaipd, baca data kartu kredit dan tetapkan kedf. Ini sudah dilakukan untuk Anda. - Gunakan
.info()untuk mencetak informasi tentangdf. - Gunakan
.value_counts()untuk mendapatkan jumlah transaksi penipuan dan non-penipuan pada kolom'Class'. Tetapkan hasilnya keocc. - Dapatkan rasio transaksi penipuan terhadap total jumlah transaksi dalam himpunan data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import pandas and read csv
import pandas as pd
df = pd.read_csv("creditcard_data.csv")
# Explore the features available in your dataframe
print(df.____)
# Count the occurrences of fraud and no fraud and print them
occ = df['____'].____()
print(occ)
# Print the ratio of fraud cases
print(occ / ____)