1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶ不正検知

Connected

연습 문제

不正を見つける昔ながらのアプローチを試す

この演習では、クレジットカードのデータセットから「昔ながら」のやり方で不正検知に挑戦します。まず、一般的な統計量を使ってしきい値を定義し、不正と正常を分けます。次に、そのしきい値を特徴量に適用して不正を検出します。これは多くの不正分析チームで一般的に行われている方法です。

統計的なしきい値は、観測値の平均を見て決められることがよくあります。最初に、特徴量の平均が不正と正常のケースで異なるかを確認しましょう。そのうえで、その情報を使って常識的なしきい値を作成します。最後に、この方法が不正検知でどの程度うまく機能するかを確認します。

pandas はすでに pd としてインポートされています。

지침

100 XP
  • groupby() を使って df を Class ごとにグループ化し、特徴量の平均を取得します。
  • 不正フラグの条件として、V1 が -3 未満、かつ V3 が -5 未満という条件を作成します。
  • 性能評価として、pandas の crosstab 関数を使い、フラグ付けした不正ケースと実際の不正ケースを比較します。