1. Learn
  2. /
  3. Kurser
  4. /
  5. PySparkで学ぶBig Data入門

Connected

övning

MovieLens データセットを RDD に読み込む

Collaborative filtering はレコメンダーシステムの手法で、ユーザーがさまざまなプロダクトに付けた評価や行動履歴を基に新しい項目を推奨します。Machine Learning とデータの並列処理の発展により、レコメンダーシステムはここ数年で広く普及し、映画、音楽、ニュース、書籍、研究論文、検索クエリ、ソーシャルタグなど幅広い分野で利用されています。この3部構成の演習では、PySpark MLlib を使って MovieLens 100k dataset のサブセットを用い、シンプルな映画レコメンドシステムを開発することが目標です。

最初のパートでは、まず MovieLens のデータ(ratings.csv)を RDD に読み込みます。RDD の各行は userId,movieId,rating,timestamp の形式なので、timestamp 列を取り除き、MovieLens のデータを Ratings オブジェクト(userID, productID, rating)にマップします。最後に、RDD を学習用とテスト用の RDD に分割します。

ワークスペースには SparkContext sc が用意されています。ratings.csv へのパスである file_path 変数、および ALS 用のクラス(すなわち Rating)もすでに利用可能です。

Instruktioner

100 XP
  • ratings.csv データセットを RDD に読み込みます。
  • 区切り文字 , で RDD を分割します。
  • RDD の各行について、Rating() クラスを使って userID, productID, rating のタプルを作成します。
  • データを学習データとテストデータに(0.8 と 0.2 で)ランダムに分割します。