1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

Decision Tree を評価する

テストデータでの性能を評価することで、モデルの品質を測定できます。モデルはこれらのデータで学習していないため、客観的な評価になります。

「混同行列」は、予測と既知の正解の対応をわかりやすく分解して示します。4 つのセルがあり、それぞれ次の件数を表します。

  • True Negatives(TN)— モデルの予測は負で、実際の結果も負
  • True Positives(TP)— モデルの予測は正で、実際の結果も正
  • False Negatives(FN)— モデルの予測は負だが、実際の結果は正
  • False Positives(FP)— モデルの予測は正だが、実際の結果は負

これらの件数(TN、TP、FN、FP)の合計は、テストデータ内のレコード数と一致するはずです。テストデータは flights データの一部集合に過ぎません。flights_test.count() を使ってテストデータのレコード数と比較できます。

注意:これらの予測はテストデータに対して行われているため、学習データに対する予測よりも件数は少なくなります。

指示

100 XP
  • label と prediction の組み合わせをカウントして混同行列を作成し、結果を表示します。
  • True Negatives、True Positives、False Negatives、False Positives の件数を数えます。
  • 正解率(accuracy)を計算します。