ストップワードを除去してデータセットを縮約する

この演習では、データからストップワードを除去します。ストップワードとは、"I"、"the"、"a" などの、頻出する一方で分析上あまり重要でない語のことです。自分で作成したリストで明らかなストップワードを除去することもできますが、この演習では環境内で提供されている精選リスト stop_words を使って除去します。

ストップワードを取り除いたら、各要素が (k, v) というペアのタプルから成る pair RDD を作成します。ここでは、RDD 内の各単語 w に対して (w, 1) という形にします。最後に、pair RDD で同じキーを持つ値を集約して、各単語の出現回数を数えます。

作業スペースにはすでに SparkContext sc と splitRDD、そしてリスト変数 stop_words が用意されています。