Memplot data Anda
Dari latihan sebelumnya kita tahu bahwa rasio observasi fraud terhadap non-fraud sangat rendah. Anda dapat melakukan sesuatu terkait hal tersebut, misalnya dengan melakukan pengambilan sampel ulang (re-sampling) pada data, yang akan dijelaskan dalam video berikutnya.
Pada latihan ini, Anda akan melihat data dan memvisualisasikan rasio fraud terhadap non-fraud. Ini selalu menjadi langkah awal yang baik dalam analisis fraud: lihat data Anda terlebih dahulu sebelum melakukan perubahan apa pun.
Selain itu, saat berdiskusi dengan rekan kerja, visual sering kali membuat sangat jelas bahwa kita berhadapan dengan himpunan data yang sangat tidak seimbang. Mari buat plot untuk memvisualisasikan rasio titik data fraud terhadap non-fraud pada himpunan data df.
Fungsi prep_data() telah dimuat di ruang kerja Anda, begitu juga matplotlib.pyplot sebagai plt.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
Definisikan fungsi
plot_data(X, y)yang akan menampilkan himpunan fiturXdengan labelydalam plot sebar (scatter plot) secara rapi. Ini telah disiapkan untuk Anda.Gunakan fungsi
prep_data()pada himpunan datadfAnda untuk membuat himpunan fiturXdan labely.Jalankan fungsi
plot_data()padaXdanyyang baru Anda peroleh untuk memvisualisasikan hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define a function to create a scatter plot of our data and labels
def plot_data(X, y):
plt.scatter(X[y == 0, 0], X[y == 0, 1], label="Class #0", alpha=0.5, linewidth=0.15)
plt.scatter(X[y == 1, 0], X[y == 1, 1], label="Class #1", alpha=0.5, linewidth=0.15, c='r')
plt.legend()
return plt.show()
# Create X and y from the prep_data function
X, y = prep_data(____)
# Plot our data by running our plot data function on X and y
____(X, y)