1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ不正検知

Connected

演習

ランダム・オーバーサンプリング

クレジット送金のうち、不正はごくわずかです。ここでは、クラス分布をバランスさせるために、不正クラスをオーバーサンプリングします。データセット creditcard の特徴量 Class は、不正の場合は 1、それ以外は 0 を取ります。

コンソールで str() を使って creditcard の列を確認し、head() で先頭 6 行を表示し、table(creditcard$Class) でクラスのバランスを確認できます。

指示

100 XP
  • ROSE パッケージを読み込みます。
  • オーバーサンプリング後のデータセットが不正 30%、正当 70% になるように、必要な総件数を n_new に指定します。そのために、現在の正当件数を、オーバーサンプリング後に望む正当の割合で割ってください。
  • ovun.sample() 関数を使い、式は Class ~ . としてオーバーサンプリングを行います。
  • オーバーサンプリング後のデータセットのクラスバランスを確認します。