Tworzenie bazowego RDD i jego transformacja

Ilość nieustrukturyzowanych danych (logi, obrazy, pliki binarne) rośnie w błyskawicznym tempie, a PySpark to doskonałe narzędzie do analizy tego typu danych za pomocą RDD. W tym ćwiczeniu składającym się z 3 części napiszesz kod, który wyznacza najczęściej występujące słowa w Dziełach wszystkich Williama Szekspira.

Oto krótki opis kroków programu zliczającego słowa:

Utwórz bazowy RDD z pliku Complete_Shakespeare.txt.
Użyj transformacji RDD, aby z każdego elementu bazowego RDD uzyskać listę pojedynczych słów.
Usuń ze swoich danych słowa funkcyjne (stop words).
Utwórz pair RDD, w którym każdy element to krotka pary ('w', 1).
Pogrupuj elementy pair RDD według klucza (słowa) i zsumuj ich wartości.
Zamień klucze (słowa) z wartościami (liczbami wystąpień), tak aby kluczem była liczba, a wartością słowo.
Na koniec posortuj RDD malejąco i wyświetl 10 najczęstszych słów wraz z ich częstotliwościami.

W tej pierwszej części ćwiczenia utworzysz bazowy RDD z pliku Complete_Shakespeare.txt i poddasz go transformacji, aby otrzymać listę pojedynczych słów.

Pamiętaj, że w swoim środowisku roboczym masz już dostępny SparkContext sc. Zmienna file_path (ścieżka do pliku Complete_Shakespeare.txt) jest również wczytana automatycznie.

Utwórz RDD o nazwie baseRDD, który wczytuje wiersze z file_path.
Przekształć baseRDD w listę pojedynczych słów i zapisz wynik jako nowy splitRDD.
Policz łączną liczbę słów w splitRDD.

упражнение

Tworzenie bazowego RDD i jego transformacja

Инструкции

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}упражнение

Инструкции

упражнение