MulaiMulai sekarang secara gratis

Memplot data Anda

Dari latihan sebelumnya kita tahu bahwa rasio observasi fraud terhadap non-fraud sangat rendah. Anda dapat melakukan sesuatu terkait hal tersebut, misalnya dengan melakukan pengambilan sampel ulang (re-sampling) pada data, yang akan dijelaskan dalam video berikutnya.

Pada latihan ini, Anda akan melihat data dan memvisualisasikan rasio fraud terhadap non-fraud. Ini selalu menjadi langkah awal yang baik dalam analisis fraud: lihat data Anda terlebih dahulu sebelum melakukan perubahan apa pun.

Selain itu, saat berdiskusi dengan rekan kerja, visual sering kali membuat sangat jelas bahwa kita berhadapan dengan himpunan data yang sangat tidak seimbang. Mari buat plot untuk memvisualisasikan rasio titik data fraud terhadap non-fraud pada himpunan data df.

Fungsi prep_data() telah dimuat di ruang kerja Anda, begitu juga matplotlib.pyplot sebagai plt.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Definisikan fungsi plot_data(X, y) yang akan menampilkan himpunan fitur X dengan label y dalam plot sebar (scatter plot) secara rapi. Ini telah disiapkan untuk Anda.

  • Gunakan fungsi prep_data() pada himpunan data df Anda untuk membuat himpunan fitur X dan label y.

  • Jalankan fungsi plot_data() pada X dan y yang baru Anda peroleh untuk memvisualisasikan hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
	plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
	plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
	plt.legend()
	return plt.show()

# Create X and y from the prep_data function 
X, y = prep_data(____)

# Plot our data by running our plot data function on X and y
____(X, y)
Edit dan Jalankan Kode