Usuń stop words i zredukuj zbiór danych

W tym ćwiczeniu usuniesz stop words ze swoich danych. Stop words to popularne słowa, które zazwyczaj nie niosą ze sobą istotnych informacji – na przykład „I", „the", „a" itp. Wiele oczywistych stop words możesz usunąć, tworząc własną listę. W tym ćwiczeniu jednak skorzystasz z gotowej listy stop_words dostępnej w twoim środowisku.

Po usunięciu stop words utworzysz parowy RDD, w którym każdy element to krotka pary (k, v), gdzie k to klucz, a v to wartość. W tym przypadku parowy RDD składa się z par (w, 1), gdzie w oznacza kolejne słowo z RDD, a 1 to przypisana mu liczba. Na koniec połączysz wartości o tym samym kluczu z parowego RDD, aby policzyć liczbę wystąpień każdego słowa.

Pamiętaj, że w twoim środowisku są już dostępne: SparkContext sc, splitRDD oraz zmienna stop_words z listą stop words.

Przefiltruj splitRDD, usuwając stop words z listy stop_words.
Utwórz krotkę parowego RDD zawierającą słowo (używając iteratora w) oraz liczbę 1 dla każdego elementu w splitRDD.
Oblicz liczbę wystąpień każdego słowa (częstość słów) w parowym RDD. Użyj transformacji operującej na parach klucz-wartość (k, v). Zastanów się, której funkcji użyć.

ćwiczenie

Usuń stop words i zredukuj zbiór danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie