Wyświetlanie częstości słów

Po połączeniu wartości (liczników) z tym samym kluczem (słowem) w tym ćwiczeniu zwrócisz 10 pierwszych częstości słów. Można by pobrać wszystkie elementy naraz za pomocą collect(), ale to zła praktyka, której należy unikać. RDD potrafią być ogromne – możesz wyczerpać pamięć i doprowadzić do awarii programu.

Co zrobić, jeśli chcemy zwrócić 10 najczęstszych słów? W tym celu najpierw zamienisz klucze (słowa) z wartościami (licznikami), tak aby kluczem była liczba wystąpień, a wartością – słowo. Na razie w result_RDD klucz to element 0, a wartość to element 1. Po zamianie kluczy i wartości w krotce posortuj sparowane RDD według klucza (licznika). Dzięki temu sortowanie RDD po kluczu jest prostsze niż użycie operacji sortByKey w PySpark. Na koniec zwrócisz 10 najczęstszych słów na podstawie ich częstości z posortowanego RDD.

W swoim środowisku pracy masz już dostępne SparkContext sc oraz resultRDD.

Wyświetl 10 pierwszych słów wraz z ich częstościami z RDD resultRDD.
Zamień klucze i wartości w resultRDD.
Posortuj klucze w kolejności malejącej.
Wyświetl 10 najczęściej występujących słów wraz z ich częstościami z posortowanego RDD.

ćwiczenie

Wyświetlanie częstości słów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie