MulaiMulai sekarang secara gratis

Menggunakan statistik untuk mendefinisikan perilaku normal

Pada latihan sebelumnya kita melihat bahwa fraud lebih sering terjadi pada kategori transaksi tertentu, namun tidak ada cara yang jelas untuk membagi data, misalnya, ke dalam kelompok usia. Kali ini, mari selidiki rata-rata jumlah yang dibelanjakan pada transaksi normal dibandingkan dengan transaksi fraud. Ini memberi Anda gambaran tentang bagaimana transaksi fraud berbeda secara struktural dari transaksi normal.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Buat dua dataframe baru dari observasi fraud dan non-fraud. Cari data di df dengan .loc dan tetapkan kondisi "where fraud is 1" dan "where fraud is 0" untuk pembuatan dataframe baru.
  • Plot kolom amount dari dataframe yang baru dibuat menggunakan fungsi plot histogram dan tetapkan label fraud dan nonfraud masing-masing pada plot.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create two dataframes with fraud and non-fraud data 
df_fraud = df.____[df.____ == ____] 
df_non_fraud = df.____[df.____ == ____]

# Plot histograms of the amounts in fraud and non-fraud data 
plt.hist(____.____, alpha=0.5, label='____')
plt.hist(____.____, alpha=0.5, label='____')
plt.legend()
plt.show()
Edit dan Jalankan Kode