1. Learn
  2. /
  3. Courses
  4. /
  5. PySparkで学ぶBig Data入門

Connected

Exercise

MSE を用いたモデル評価

テストデータから ALS モデルで予測評価値を生成したら、この演習の最後のパートでは、モデルの Mean Square Error (MSE) を計算するためのデータ準備を行います。MSE は、すべてのユーザーに対する (original rating – predicted rating)**2 の平均で、モデルがデータにどれだけ適合しているか(絶対的な当てはまり)を示します。

そのために、まず ratings_final と predictions の両方の RDD を、((user, product), rating) のタプルになるように整理します。両方の RDD におけるマッピングは次のとおりです。

0: user
1: product
2: rating

次に、変換後の RDD を結合し、最後に二乗差の関数を適用してから mean() を使って MSE を求めます。

ワークスペースには SparkContext sc が用意されています。また、ratings_final と predictions の RDD もすでに利用可能です。

Instructions

100 XP
  • ratings RDD を ((user, product), rating) の形に整理します。
  • predictions RDD を ((user, product), rating) の形に整理します。
  • prediction RDD を ratings RDD と結合します。
  • 元の rating と予測 rating の MSE を用いてモデルを評価し、結果を出力します。