1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Zliczanie po kluczach

W przypadku wielu zbiorów danych istotne jest zliczenie liczby kluczy w zbiorze par klucz/wartość. Przydaje się to na przykład wtedy, gdy chcesz policzyć, w ilu krajach sprzedano dany produkt, albo wyświetlić najpopularniejsze imiona dzieci. W tym ćwiczeniu użyjesz wcześniej utworzonego Rdd i zliczysz liczbę unikalnych kluczy w tym parowym RDD.

Pamiętaj, że w twoim środowisku pracy dostępne są już SparkContext sc oraz Rdd.

Instrukcje

100 XP
  • Użyj countByKey i przypisz wynik do zmiennej total.
  • Jaki jest typ zmiennej total?
  • Iteruj po total i wypisz klucze wraz z ich liczbą wystąpień.