自然発生的なヒット率

この演習では、再びクレジットカードの取引データを使います。特徴量とラベルは前の章と同様で、データは強く不均衡です。すでに特徴量 X とラベル y を用意してあり、どちらも NumPy 配列です。

まずは、もしすべてを非不正（non-fraud）と予測した場合の 「自然な正解率（natural accuracy）」 を把握するために、データセット内で不正がどの程度発生しているかを確認します。何もしない場合よりも良い予測を得るには、どの水準の「正解率」を上回る必要があるかを理解することが重要です。続く演習では、不正検知のための最初のランダムフォレスト分類器を作成します。これは今後の演習で改善を目指す「ベースライン」モデルとして使います。