1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Vytvoření a dotazování korpusu pomocí gensim

Přišel čas využít metody z předchozího videa a vytvořit svůj první slovník a korpus v gensim!

Tyhle datové struktury pak využiješ k prozkoumání trendů slov a potenciálně zajímavých témat ve své sadě dokumentů. Na úvod jsme připravili několik dalších článků z Wikipedie, které prošly předzpracováním: všechna slova byla převedena na malá písmena, tokenizována a zbavena stop slov a interpunkce. Výsledek je uložen v seznamu tokenů dokumentů zvaném articles. Budeš potřebovat provést lehké předzpracování a poté vygenerovat slovník a korpus pomocí gensim.

Pokyny

100 XP
  • Importuj Dictionary z gensim.corpora.dictionary.
  • Inicializuj gensim Dictionary s tokeny z articles.
  • Získej id pro "computer" ze dictionary. K tomu použij metodu .token2id, která vrací id na základě textu, a na výsledek zavolej .get(), která vrací tokeny podle id. Jako argument předej do .get() hodnotu "computer".
  • Pomocí výrazu se seznamovým porozuměním, ve kterém iteruješ přes articles, vytvoř gensim MmCorpus ze dictionary.
    • Ve výstupním výrazu zavolej na dictionary metodu .doc2bow() s argumentem article.
  • Vypiš prvních 10 id slov spolu s jejich četností výskytu z pátého dokumentu. Tento krok je už připravený za tebe, takže jen klikni na Odeslat odpověď a podívej se na výsledky!