1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Gensim i bag-of-words

Teraz użyjesz swojego nowego korpusu i słownika z biblioteki gensim, aby sprawdzić najczęściej występujące terminy w poszczególnych dokumentach i w całym zbiorze. Do wyszukiwania terminów możesz korzystać ze słownika. Spróbuj odgadnąć, jakie tematy się wyłaniają – i śmiało eksploruj kolejne dokumenty w konsoli IPython!

Masz dostęp do obiektów dictionary i corpus utworzonych w poprzednim ćwiczeniu, a także do defaultdict z Pythona i modułu itertools, które pomogą ci tworzyć pomocnicze struktury danych do analizy.

  • defaultdict pozwala zainicjalizować słownik, który automatycznie przypisuje wartość domyślną nieistniejącym kluczom. Podając argument int, gwarantujesz, że każdy nowy klucz otrzyma domyślną wartość 0. To idealne rozwiązanie do zliczania wystąpień słów w tym ćwiczeniu.

  • itertools.chain.from_iterable() umożliwia iterowanie przez zestaw sekwencji tak, jakby tworzyły jedną ciągłą sekwencję. Dzięki tej funkcji możesz łatwo przejść przez obiekt corpus (będący listą list).

Piąty dokument z corpus jest zapisany w zmiennej doc i został posortowany malejąco.

Instrukcje 1/2

undefined XP
    1
    2
  • Korzystając z pierwszej pętli for, wyświetl pięć najczęstszych słów z bow_doc, używając każdego word_id ze słownika dictionary razem z word_count.

    • Do word_id możesz odwołać się za pomocą metody .get() obiektu dictionary.
  • Utwórz defaultdict o nazwie total_word_count, w którym kluczami są identyfikatory wszystkich tokenów (word_id), a wartościami – suma ich wystąpień we wszystkich dokumentach (word_count).

    • Pamiętaj, aby przy tworzeniu defaultdict podać argument int, a wewnątrz drugiej pętli for zwiększaj każdy word_id w total_word_count o wartość word_count.