Tworzenie korpusu i odpytywanie go za pomocą gensim

Czas zastosować metody poznane w poprzednim filmie i stworzyć swój pierwszy słownik oraz korpus w gensim!

Te struktury danych pozwolą ci zbadać trendy słów i potencjalnie interesujące tematy w zbiorze dokumentów. Na dobry początek zaimportowaliśmy kilka dodatkowych artykułów z Wikipedii, które zostały wstępnie przetworzone – wszystkie słowa zamieniono na małe litery, poddano tokenizacji oraz usunięto słowa stop i znaki interpunkcyjne. Wyniki zapisano na liście tokenów dokumentów o nazwie articles. Musisz wykonać lekkie przetwarzanie wstępne, a następnie wygenerować słownik i korpus gensim.

Zaimportuj Dictionary z gensim.corpora.dictionary.
Zainicjalizuj Dictionary z gensim, przekazując tokeny z articles.
Pobierz identyfikator słowa "computer" ze słownika dictionary. W tym celu użyj metody .token2id, która zwraca identyfikatory na podstawie tekstu, a następnie połącz ją łańcuchowo z .get(), które zwraca tokeny na podstawie identyfikatorów. Przekaż "computer" jako argument do .get().
Użyj wyrażenia listowego, w którym iterujesz po articles, aby utworzyć MmCorpus w gensim na podstawie dictionary.
- W wyrażeniu wyjściowym wywołaj metodę .doc2bow() na dictionary, przekazując article jako argument.
Wyświetl pierwsze 10 identyfikatorów słów wraz z ich liczebnością z piątego dokumentu. Ten krok jest już gotowy – kliknij „Prześlij odpowiedź", aby zobaczyć wyniki!

ćwiczenie

Tworzenie korpusu i odpytywanie go za pomocą gensim

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie