Random over-sampling
Hanya sebagian kecil transfer kredit yang bersifat fraud. Sekarang Anda akan melakukan over-sampling pada kasus fraud untuk menyeimbangkan distribusi kelas. Fitur Class pada himpunan data creditcard bernilai 1 jika terjadi fraud dan 0 jika tidak.
Anda dapat menggunakan konsol untuk menampilkan kolom 'creditcard' dengan str(), mencetak 6 baris pertama himpunan data dengan head(), dan memeriksa keseimbangan kelas dengan table(creditcard$Class).
Latihan ini adalah bagian dari kursus
Deteksi Fraud di R
Petunjuk latihan
- Muat paket
ROSE. - Tentukan
n_newsebagai jumlah kasus yang diperlukan dalam himpunan data hasil over-sampling sehingga himpunan data baru akan terdiri dari 30% kasus fraud dan 70% kasus sah. Untuk itu, Anda harus membagi jumlah kasus sah yang ada dengan persentase kasus sah yang diinginkan pada himpunan data hasil over-sampling. - Gunakan fungsi
ovun.sample()untuk over-sampling denganClass ~ .sebagai formula. - Periksa keseimbangan kelas pada himpunan data hasil over-sampling.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load ROSE
___
# Calculate the total number of required cases in the over-sampled dataset
print(table(creditcard$Class))
n_new <- ___
# Over-sample
oversampling_result <- ___(formula = ___, data = ___,
method = ___, N = ___, seed = 2018)
# Verify the Class-balance of the over-sampled dataset
oversampled_credit <- oversampling_result$data
prop.table(___(___))