ベースRDDを作成して変換する

非構造化データ（ログ行、画像、バイナリファイルなど）の量は爆発的に増えており、PySpark は RDD を通じてこの種のデータを分析するのに最適なフレームワークです。この3部構成の演習では、Complete Works of William Shakespeare から最もよく出現する単語を計算するコードを書きます。

単語数カウントプログラムの手順は次のとおりです。

Complete_Shakespeare.txt ファイルからベースRDDを作成します。
RDD の変換を使って、ベースRDDの各要素から単語の長いリストを作成します。
ストップワードをデータから取り除きます。
各要素が ('w', 1) のタプルになるように、ペアRDDを作成します。
ペアRDDの要素をキー（単語）でグループ化し、値を合計します。
キー（単語）と値（出現回数）を入れ替え、キーが回数、値が単語になるようにします。
最後に、RDD を降順でソートし、最も頻度の高い単語トップ10とその出現回数を表示します。

この最初の演習では、Complete_Shakespeare.txt ファイルからベースRDDを作成し、変換して単語の長いリストを作ります。

作業スペースにはすでに SparkContext sc が用意されています。Complete_Shakespeare.txt へのパスを保持する変数 file_path も読み込まれています。

file_path から行を読み込む RDD baseRDD を作成します。
baseRDD を変換して単語の長いリストにし、新しい splitRDD を作成します。
splitRDD に含まれる単語の総数を数えます。

道练习

ベースRDDを作成して変換する

说明

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习