不正と正常の比率を確認する

この章では、クレジットカード取引データを含む creditcard_sampledata.csv を扱います。幸いにも、不正の発生はこれらの取引の中ではごく少数です。

しかし、Machine Learning のアルゴリズムは、データセットに含まれる各クラスの出現頻度がある程度均衡しているときに最も良く機能します。不正のケースが少ないと、識別方法を学習するためのデータが不足します。これはクラス不均衡として知られ、詐欺検知における主要な課題の一つです。

それでは、このデータセットを探索して、クラス不均衡の問題を観察していきましょう。