1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

Logistic Regression モデルを評価する

Accuracy(正解率)は、最も多いターゲットクラスに引きずられることがあるため、一般的にあまり信頼できる指標ではありません。

ほかに有用な指標が 2 つあります。

  • precision(適合率)
  • recall(再現率)

このレッスンのスライドで、関連する式を確認してください。

Precision は「正と予測したもののうち、正しかった割合」です。遅延すると予測されたすべてのフライトのうち、実際に遅延したのはどのくらいの割合でしょうか?

Recall は「実際に正だったもののうち、正しく予測できた割合」です。遅延したすべてのフライトのうち、モデルが正しく予測できたのはどのくらいの割合でしょうか?

Precision と recall は通常、陽性(positive)ターゲットクラスに関して定義されますが、両方のターゲットクラスを考慮する「重み付き(weighted)」版の指標を計算することも可能です。

混同行列の構成要素は TN、TP、FN、FP として利用でき、予測結果のオブジェクトは prediction です。

指示

100 XP
  • precision と recall を求めます。
  • マルチクラス用の evaluator を作成し、重み付き precision を評価します。
  • バイナリ用の evaluator を作成し、"areaUnderROC" メトリックを使って AUC を評価します。