1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ不正検知

Connected

演習

RFモデルの評価指標

前の演習では、ランダムフォレストモデルのaccuracy(正解率)を算出しました。しかし、詐欺検知ではaccuracyは誤解を招くことがあります。極端に不均衡なデータでは、複数の分類器を比較するために、より信頼できる指標としてAUROC曲線が用いられます。さらに、classification reportはモデルのprecision(適合率)とrecall(再現率)を示し、confusion matrixは実際にどれだけの詐欺ケースを正しく予測できたかを可視化します。では、これらの評価指標を計算してみましょう。

前の演習で使ったランダムフォレストモデルを引き続き使用します。model = RandomForestClassifier(random_state=5) はすでに学習済みで、X_train, y_train, X_test, y_test が利用可能です。

指示

100 XP
  • sklearn.metrics から classification report、confusion matrix、ROCスコアをインポートします。
  • 学習済みランダムフォレスト model から二値の予測を取得します。
  • predict_proba() を実行して予測確率を取得します。
  • y_test と predicted を比較して、classification report と confusion matrix を出力します。