1. Learn
  2. /
  3. Courses
  4. /
  5. PySparkで学ぶBig Data入門

Connected

Exercise

ストップワードを除去してデータセットを縮約する

この演習では、データからストップワードを除去します。ストップワードとは、"I"、"the"、"a" などの、頻出する一方で分析上あまり重要でない語のことです。自分で作成したリストで明らかなストップワードを除去することもできますが、この演習では環境内で提供されている精選リスト stop_words を使って除去します。

ストップワードを取り除いたら、各要素が (k, v) というペアのタプルから成る pair RDD を作成します。ここでは、RDD 内の各単語 w に対して (w, 1) という形にします。最後に、pair RDD で同じキーを持つ値を集約して、各単語の出現回数を数えます。

作業スペースにはすでに SparkContext sc と splitRDD、そしてリスト変数 stop_words が用意されています。

Instructions

100 XP
  • 変数 stop_words に挙げられたストップワードを除去するように、splitRDD を filter してください。
  • splitRDD の各単語要素から、単語(イテレータ w を使用)と数値 1 を要素とする pair RDD のタプルを作成してください。
  • pair RDD で各単語の出現回数(単語頻度)を取得してください。キーと値の (k, v) ペアを対象とする変換を使います。ここでどの関数を使うべきか、よく考えて選んでください。