MulaiMulai sekarang secara gratis

Random over-sampling

Hanya sebagian kecil transfer kredit yang bersifat fraud. Sekarang Anda akan melakukan over-sampling pada kasus fraud untuk menyeimbangkan distribusi kelas. Fitur Class pada himpunan data creditcard bernilai 1 jika terjadi fraud dan 0 jika tidak.

Anda dapat menggunakan konsol untuk menampilkan kolom 'creditcard' dengan str(), mencetak 6 baris pertama himpunan data dengan head(), dan memeriksa keseimbangan kelas dengan table(creditcard$Class).

Latihan ini adalah bagian dari kursus

Deteksi Fraud di R

Lihat Kursus

Petunjuk latihan

  • Muat paket ROSE.
  • Tentukan n_new sebagai jumlah kasus yang diperlukan dalam himpunan data hasil over-sampling sehingga himpunan data baru akan terdiri dari 30% kasus fraud dan 70% kasus sah. Untuk itu, Anda harus membagi jumlah kasus sah yang ada dengan persentase kasus sah yang diinginkan pada himpunan data hasil over-sampling.
  • Gunakan fungsi ovun.sample() untuk over-sampling dengan Class ~ . sebagai formula.
  • Periksa keseimbangan kelas pada himpunan data hasil over-sampling.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load ROSE
___

# Calculate the total number of required cases in the over-sampled dataset
print(table(creditcard$Class))
n_new <- ___

# Over-sample
oversampling_result <- ___(formula = ___, data = ___,
                           method = ___, N = ___, seed = 2018)

# Verify the Class-balance of the over-sampled dataset
oversampled_credit <- oversampling_result$data
prop.table(___(___))
Edit dan Jalankan Kode