1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Tworzenie korpusu i odpytywanie go za pomocą gensim

Czas zastosować metody poznane w poprzednim filmie i stworzyć swój pierwszy słownik oraz korpus w gensim!

Te struktury danych pozwolą ci zbadać trendy słów i potencjalnie interesujące tematy w zbiorze dokumentów. Na dobry początek zaimportowaliśmy kilka dodatkowych artykułów z Wikipedii, które zostały wstępnie przetworzone – wszystkie słowa zamieniono na małe litery, poddano tokenizacji oraz usunięto słowa stop i znaki interpunkcyjne. Wyniki zapisano na liście tokenów dokumentów o nazwie articles. Musisz wykonać lekkie przetwarzanie wstępne, a następnie wygenerować słownik i korpus gensim.

Instrukcje

100 XP
  • Zaimportuj Dictionary z gensim.corpora.dictionary.
  • Zainicjalizuj Dictionary z gensim, przekazując tokeny z articles.
  • Pobierz identyfikator słowa "computer" ze słownika dictionary. W tym celu użyj metody .token2id, która zwraca identyfikatory na podstawie tekstu, a następnie połącz ją łańcuchowo z .get(), które zwraca tokeny na podstawie identyfikatorów. Przekaż "computer" jako argument do .get().
  • Użyj wyrażenia listowego, w którym iterujesz po articles, aby utworzyć MmCorpus w gensim na podstawie dictionary.
    • W wyrażeniu wyjściowym wywołaj metodę .doc2bow() na dictionary, przekazując article jako argument.
  • Wyświetl pierwsze 10 identyfikatorów słów wraz z ich liczebnością z piątego dokumentu. Ten krok jest już gotowy – kliknij „Prześlij odpowiedź", aby zobaczyć wyniki!