1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

CountingBykeys

多くのデータセットでは、キー/値データセットに含まれるキーの数を数えることが重要です。たとえば、商品が販売された国の数を数えたり、人気のある赤ちゃんの名前を表示したりするときなどです。このシンプルな演習では、先ほど作成した Rdd を使い、そのペアRDDに含まれる一意なキーの数を数えます。

ワークスペースには、すでに SparkContext の sc と Rdd が用意されています。

指示

100 XP
  • countByKey を使い、結果を変数 total に代入します。
  • total の型は何ですか?
  • total を反復処理して、キーとその出現回数を出力してください。