不正を見つける昔ながらのアプローチを試す

この演習では、クレジットカードのデータセットから「昔ながら」のやり方で不正検知に挑戦します。まず、一般的な統計量を使ってしきい値を定義し、不正と正常を分けます。次に、そのしきい値を特徴量に適用して不正を検出します。これは多くの不正分析チームで一般的に行われている方法です。

統計的なしきい値は、観測値の平均を見て決められることがよくあります。最初に、特徴量の平均が不正と正常のケースで異なるかを確認しましょう。そのうえで、その情報を使って常識的なしきい値を作成します。最後に、この方法が不正検知でどの程度うまく機能するかを確認します。

pandas はすでに pd としてインポートされています。