1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Usuń stop words i zredukuj zbiór danych

W tym ćwiczeniu usuniesz stop words ze swoich danych. Stop words to popularne słowa, które zazwyczaj nie niosą ze sobą istotnych informacji – na przykład „I", „the", „a" itp. Wiele oczywistych stop words możesz usunąć, tworząc własną listę. W tym ćwiczeniu jednak skorzystasz z gotowej listy stop_words dostępnej w twoim środowisku.

Po usunięciu stop words utworzysz parowy RDD, w którym każdy element to krotka pary (k, v), gdzie k to klucz, a v to wartość. W tym przypadku parowy RDD składa się z par (w, 1), gdzie w oznacza kolejne słowo z RDD, a 1 to przypisana mu liczba. Na koniec połączysz wartości o tym samym kluczu z parowego RDD, aby policzyć liczbę wystąpień każdego słowa.

Pamiętaj, że w twoim środowisku są już dostępne: SparkContext sc, splitRDD oraz zmienna stop_words z listą stop words.

Instrukcje

100 XP
  • Przefiltruj splitRDD, usuwając stop words z listy stop_words.
  • Utwórz krotkę parowego RDD zawierającą słowo (używając iteratora w) oraz liczbę 1 dla każdego elementu w splitRDD.
  • Oblicz liczbę wystąpień każdego słowa (częstość słów) w parowym RDD. Użyj transformacji operującej na parach klucz-wartość (k, v). Zastanów się, której funkcji użyć.