1. Learn
  2. /
  3. Cursuri
  4. /
  5. PySparkで学ぶBig Data入門

Connected

exercițiu

単語の出現頻度を出力する

同じキー(単語)を持つ値(カウント)を結合した後、この演習では最初の 10 個の単語頻度を返します。すべての要素は collect() で一度に取得できますが、これは推奨されません。RDD は非常に大きくなる可能性があり、メモリ不足でマシンがクラッシュすることがあります。

では、上位 10 個の単語を返したい場合はどうすればよいでしょうか?そのためには、まずキー(単語)と値(カウント)を入れ替え、キーをカウント、値を単語にします。現在、result_RDD では「キーが要素 0、値が要素 1」となっています。タプル内でキーと値を入れ替えたら、ペア RDD をキー(カウント)に基づいて並べ替えます。こうすることで、PySpark の sortByKey 操作を使うよりも、キーに基づいて RDD を簡単にソートできます。最後に、並べ替えた RDD から頻度に基づく上位 10 個の単語を返します。

作業スペースにはすでに SparkContext sc と resultRDD が用意されています。

Instrucțiuni

100 XP
  • resultRDD RDD から最初の 10 個の単語とその出現頻度を出力します。
  • resultRDD のキーと値を入れ替えます。
  • キーを降順で並べ替えます。
  • 並べ替えた RDD から、最も頻度が高い単語トップ 10 とその頻度を出力します。