Bandingkan SMOTE dengan data asli

Pada latihan sebelumnya, Anda melihat bahwa menggunakan SMOTE secara tiba-tiba memberi kita lebih banyak observasi pada kelas minoritas. Mari bandingkan hasil tersebut dengan data asli kita, agar Anda mendapat gambaran yang jelas tentang apa yang sebenarnya terjadi. Mari lihat kembali jumlah nilai pada data lama dan baru, lalu plot dua diagram sebar data tersebut berdampingan. Anda akan menggunakan fungsi pradefinisi compare_plot() untuk itu, yang menerima argumen berikut: X, y, X_resampled, y_resampled, method=''. Fungsi ini memplot data asli Anda dalam diagram sebar, bersama data hasil resampling secara berdampingan.

Latihan ini merupakan bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Instruksi latihan

Cetak jumlah nilai dari label asli kita, y. Perhatikan bahwa y saat ini berupa array Numpy, jadi agar dapat menggunakan value counts, kita akan menetapkan y kembali sebagai objek pandas Series.
Ulangi langkah tersebut dan cetak jumlah nilai pada y_resampled. Ini menunjukkan bagaimana keseimbangan antara dua kelas berubah dengan SMOTE.
Gunakan fungsi pradefinisi compare_plot() yang dipanggil pada data asli kita serta data hasil resampling untuk melihat diagram sebar berdampingan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Print the value_counts on the original labels y
print(pd.value_counts(pd.Series(____)))

# Print the value_counts
print(____(____(____)))

# Run compare_plot
compare_plot(____, ____, ____, ____, method='SMOTE')

Edit dan Jalankan Kode