Vytvoření a dotazování korpusu pomocí gensim

Přišel čas využít metody z předchozího videa a vytvořit svůj první slovník a korpus v gensim!

Tyhle datové struktury pak využiješ k prozkoumání trendů slov a potenciálně zajímavých témat ve své sadě dokumentů. Na úvod jsme připravili několik dalších článků z Wikipedie, které prošly předzpracováním: všechna slova byla převedena na malá písmena, tokenizována a zbavena stop slov a interpunkce. Výsledek je uložen v seznamu tokenů dokumentů zvaném articles. Budeš potřebovat provést lehké předzpracování a poté vygenerovat slovník a korpus pomocí gensim.

Importuj Dictionary z gensim.corpora.dictionary.
Inicializuj gensim Dictionary s tokeny z articles.
Získej id pro "computer" ze dictionary. K tomu použij metodu .token2id, která vrací id na základě textu, a na výsledek zavolej .get(), která vrací tokeny podle id. Jako argument předej do .get() hodnotu "computer".
Pomocí výrazu se seznamovým porozuměním, ve kterém iteruješ přes articles, vytvoř gensim MmCorpus ze dictionary.
- Ve výstupním výrazu zavolej na dictionary metodu .doc2bow() s argumentem article.
Vypiš prvních 10 id slov spolu s jejich četností výskytu z pátého dokumentu. Tento krok je už připravený za tebe, takže jen klikni na Odeslat odpověď a podívej se na výsledky!

cvičení

Vytvoření a dotazování korpusu pomocí gensim

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení