Mengurangi ukuran kelompok mayoritas
Alih-alih menambah jumlah kasus penipuan dalam himpunan data, Anda dapat secara acak menghapus kasus yang sah untuk menyeimbangkan himpunan data. Mari lakukan under-sampling pada kelas mayoritas (Class = 0) dalam himpunan data creditcard. Anda dapat menggunakan table() di konsol untuk mengetahui berapa banyak transaksi penipuan dan sah yang ada dalam himpunan data.
Latihan ini adalah bagian dari kursus
Deteksi Fraud di R
Petunjuk latihan
- Muat pustaka ROSE.
- Tentukan
n_newsebagai jumlah kasus yang diperlukan dalam himpunan data hasil under-sampling sehingga himpunan data baru terdiri dari 40% kasus penipuan. Untuk ini, Anda harus membagi jumlah kasus penipuan dengan persentase kasus penipuan yang diinginkan dalam himpunan data hasil under-sampling. - Lakukan under-sampling pada himpunan data.
- Gunakan
table()danprop.table()untuk memeriksa keseimbangan kelas dari himpunan data hasil under-sampling.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load ROSE
___
# Calculate the required number of cases in the over-sampled dataset
n_new <- ___
# Under-sample
undersampling_result <- ___(formula = ___, data = ___,
___ = ___, ___ = ___, seed = 2018)
# Verify the Class-balance of the under-sampled dataset
undersampled_credit <- undersampling_result$___
___(___(___))