1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ不正検知

Connected

演習

不正と正常の比率を確認する

この章では、クレジットカード取引データを含む creditcard_sampledata.csv を扱います。幸いにも、不正の発生はこれらの取引の中ではごく少数です。

しかし、Machine Learning のアルゴリズムは、データセットに含まれる各クラスの出現頻度がある程度均衡しているときに最も良く機能します。不正のケースが少ないと、識別方法を学習するためのデータが不足します。これはクラス不均衡として知られ、詐欺検知における主要な課題の一つです。

それでは、このデータセットを探索して、クラス不均衡の問題を観察していきましょう。

指示

100 XP
  • pandas を pd としてインポートし、クレジットカードデータを読み込んで df に代入します。これはすでに行ってあります。
  • .info() を使って df の情報を表示します。
  • .value_counts() を使って、'Class' 列における不正取引と正常取引の件数を取得し、結果を occ に代入します。
  • データセット内の総取引件数に対する不正取引の比率を求めます。