Bandingkan SMOTE dengan data asli
Pada latihan sebelumnya, Anda melihat bahwa menggunakan SMOTE secara tiba-tiba memberi kita lebih banyak observasi pada kelas minoritas. Mari bandingkan hasil tersebut dengan data asli kita, agar Anda mendapat gambaran yang jelas tentang apa yang sebenarnya terjadi. Mari lihat kembali jumlah nilai pada data lama dan baru, lalu plot dua diagram sebar data tersebut berdampingan. Anda akan menggunakan fungsi pradefinisi compare_plot() untuk itu, yang menerima argumen berikut: X, y, X_resampled, y_resampled, method=''. Fungsi ini memplot data asli Anda dalam diagram sebar, bersama data hasil resampling secara berdampingan.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Cetak jumlah nilai dari label asli kita,
y. Perhatikan bahwaysaat ini berupa array Numpy, jadi agar dapat menggunakan value counts, kita akan menetapkanykembali sebagai objek pandas Series. - Ulangi langkah tersebut dan cetak jumlah nilai pada
y_resampled. Ini menunjukkan bagaimana keseimbangan antara dua kelas berubah dengan SMOTE. - Gunakan fungsi pradefinisi
compare_plot()yang dipanggil pada data asli kita serta data hasil resampling untuk melihat diagram sebar berdampingan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))
# Print the value_counts
print(____(____(____)))
# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')