1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

ReduceByKey i Collect

Jedna z najpopularniejszych transformacji par RDD to reduceByKey(), która działa na parach klucz-wartość (k,v) i łączy wartości odpowiadające temu samemu kluczowi. W tym ćwiczeniu najpierw utworzysz parę RDD z listy krotek, następnie połączysz wartości o tym samym kluczu i na końcu wyświetlisz wyniki.

Pamiętaj, że w swoim obszarze roboczym masz już dostępny SparkContext sc.

Instrukcje

100 XP
  • Utwórz parę RDD o nazwie Rdd z krotkami (1,2),(3,4),(3,6),(4,5).
  • Przekształć Rdd za pomocą reduceByKey() w parę RDD Rdd_Reduced, dodając wartości o tym samym kluczu.
  • Pobierz zawartość pary RDD Rdd_Reduced i iteruj po niej, aby wypisać wyniki.