1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

モデルの学習と予測

データを学習用とテスト用に分割したら、演習の後半では学習データを使って ALS アルゴリズムを学習します。PySpark MLlib の ALS アルゴリズムには必須パラメータとして rank(モデルの潜在因子の数)と iterations(反復回数)があります。ALS モデルを学習したら、テストデータから評価値を予測できます。このために、テストデータセットから user と item の列を渡し、最後に predictAll() の出力から 2 行のリストを返してください。

SparkContext sc、training_data、test_data はすでにワークスペースで利用可能です。

指示

100 XP
  • 学習データと設定したパラメータ(rank = 10、iterations = 10)で ALS アルゴリズムを学習します。
  • テストデータの 3 列目である rating 列を落とします。
  • テストデータから評価値を予測してモデルを検証します。
  • 予測された評価のうち 2 行のリストを返します。