MulaiMulai sekarang secara gratis

Mengurangi ukuran kelompok mayoritas

Alih-alih menambah jumlah kasus penipuan dalam himpunan data, Anda dapat secara acak menghapus kasus yang sah untuk menyeimbangkan himpunan data. Mari lakukan under-sampling pada kelas mayoritas (Class = 0) dalam himpunan data creditcard. Anda dapat menggunakan table() di konsol untuk mengetahui berapa banyak transaksi penipuan dan sah yang ada dalam himpunan data.

Latihan ini adalah bagian dari kursus

Deteksi Fraud di R

Lihat Kursus

Petunjuk latihan

  • Muat pustaka ROSE.
  • Tentukan n_new sebagai jumlah kasus yang diperlukan dalam himpunan data hasil under-sampling sehingga himpunan data baru terdiri dari 40% kasus penipuan. Untuk ini, Anda harus membagi jumlah kasus penipuan dengan persentase kasus penipuan yang diinginkan dalam himpunan data hasil under-sampling.
  • Lakukan under-sampling pada himpunan data.
  • Gunakan table() dan prop.table() untuk memeriksa keseimbangan kelas dari himpunan data hasil under-sampling.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load ROSE
___

# Calculate the required number of cases in the over-sampled dataset
n_new <- ___

# Under-sample
undersampling_result <- ___(formula = ___, data = ___,
                           ___ = ___, ___ = ___, seed = 2018)

# Verify the Class-balance of the under-sampled dataset
undersampled_credit <- undersampling_result$___
___(___(___))
Edit dan Jalankan Kode