1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

ReduceByKey と Collect

最もよく使われるペア RDD の変換の一つが reduceByKey() です。これはキーと値のペア (k, v) に対して動作し、キーごとに値をマージします。この演習では、まずタプルのリストからペア RDD を作成し、次に同じキーの値を結合し、最後に結果を出力します。

ワークスペースにはすでに SparkContext sc が用意されています。

指示

100 XP
  • タプル (1,2),(3,4),(3,6),(4,5) から、Rdd という名前のペア RDD を作成します。
  • Rdd に reduceByKey() を適用し、同じキーの値を加算して、Rdd_Reduced というペア RDD に変換します。
  • ペア RDD Rdd_Reduced の内容を collect して、反復しながら出力を表示します。