Gensim i bag-of-words

Teraz użyjesz swojego nowego korpusu i słownika z biblioteki gensim, aby sprawdzić najczęściej występujące terminy w poszczególnych dokumentach i w całym zbiorze. Do wyszukiwania terminów możesz korzystać ze słownika. Spróbuj odgadnąć, jakie tematy się wyłaniają – i śmiało eksploruj kolejne dokumenty w konsoli IPython!

Masz dostęp do obiektów dictionary i corpus utworzonych w poprzednim ćwiczeniu, a także do defaultdict z Pythona i modułu itertools, które pomogą ci tworzyć pomocnicze struktury danych do analizy.

defaultdict pozwala zainicjalizować słownik, który automatycznie przypisuje wartość domyślną nieistniejącym kluczom. Podając argument int, gwarantujesz, że każdy nowy klucz otrzyma domyślną wartość 0. To idealne rozwiązanie do zliczania wystąpień słów w tym ćwiczeniu.
itertools.chain.from_iterable() umożliwia iterowanie przez zestaw sekwencji tak, jakby tworzyły jedną ciągłą sekwencję. Dzięki tej funkcji możesz łatwo przejść przez obiekt corpus (będący listą list).

Piąty dokument z corpus jest zapisany w zmiennej doc i został posortowany malejąco.

Korzystając z pierwszej pętli for, wyświetl pięć najczęstszych słów z bow_doc, używając każdego word_id ze słownika dictionary razem z word_count.
- Do word_id możesz odwołać się za pomocą metody .get() obiektu dictionary.
Utwórz defaultdict o nazwie total_word_count, w którym kluczami są identyfikatory wszystkich tokenów (word_id), a wartościami – suma ich wystąpień we wszystkich dokumentach (word_count).
- Pamiętaj, aby przy tworzeniu defaultdict podać argument int, a wewnątrz drugiej pętli for zwiększaj każdy word_id w total_word_count o wartość word_count.

ćwiczenie

Gensim i bag-of-words

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie