1. Обучение
  2. /
  3. Курса
  4. /
  5. Podstawy Big Data z PySpark

Connected

упражнение

Tworzenie bazowego RDD i jego transformacja

Ilość nieustrukturyzowanych danych (logi, obrazy, pliki binarne) rośnie w błyskawicznym tempie, a PySpark to doskonałe narzędzie do analizy tego typu danych za pomocą RDD. W tym ćwiczeniu składającym się z 3 części napiszesz kod, który wyznacza najczęściej występujące słowa w Dziełach wszystkich Williama Szekspira.

Oto krótki opis kroków programu zliczającego słowa:

  • Utwórz bazowy RDD z pliku Complete_Shakespeare.txt.
  • Użyj transformacji RDD, aby z każdego elementu bazowego RDD uzyskać listę pojedynczych słów.
  • Usuń ze swoich danych słowa funkcyjne (stop words).
  • Utwórz pair RDD, w którym każdy element to krotka pary ('w', 1).
  • Pogrupuj elementy pair RDD według klucza (słowa) i zsumuj ich wartości.
  • Zamień klucze (słowa) z wartościami (liczbami wystąpień), tak aby kluczem była liczba, a wartością słowo.
  • Na koniec posortuj RDD malejąco i wyświetl 10 najczęstszych słów wraz z ich częstotliwościami.

W tej pierwszej części ćwiczenia utworzysz bazowy RDD z pliku Complete_Shakespeare.txt i poddasz go transformacji, aby otrzymać listę pojedynczych słów.

Pamiętaj, że w swoim środowisku roboczym masz już dostępny SparkContext sc. Zmienna file_path (ścieżka do pliku Complete_Shakespeare.txt) jest również wczytana automatycznie.

Инструкции

100 XP
  • Utwórz RDD o nazwie baseRDD, który wczytuje wiersze z file_path.
  • Przekształć baseRDD w listę pojedynczych słów i zapisz wynik jako nowy splitRDD.
  • Policz łączną liczbę słów w splitRDD.