1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Gensim bag-of-words

Teď využiješ svůj nový korpus a slovník z gensim, abys zjistil/a nejčastější výrazy v jednotlivých dokumentech i napříč celým korpusem. K vyhledávání výrazů můžeš použít svůj slovník. Zkus odhadnout, o jakých tématech dokumenty jsou, a klidně prozkoumej i další dokumenty v IPython Shellu!

Máš k dispozici objekty dictionary a corpus, které jsi vytvořil/a v předchozím cvičení, a také Python moduly defaultdict a itertools, které ti pomohou s vytvořením pomocných datových struktur pro analýzu.

  • defaultdict umožňuje inicializovat slovník, který automaticky přiřadí výchozí hodnotu neexistujícím klíčům. Pokud jako argument zadáš int, zajistíš, že všem neexistujícím klíčům bude automaticky přiřazena výchozí hodnota 0. To je ideální pro ukládání počtů slov v tomto cvičení.

  • itertools.chain.from_iterable() umožňuje iterovat přes sadu sekvencí, jako by šlo o jednu souvislou sekvenci. Pomocí této funkce můžeš snadno iterovat přes objekt corpus (což je seznam seznamů).

Pátý dokument z corpus je uložen v proměnné doc, seřazené sestupně.

Pokyny 1/2

undefined XP
    1
    2
  • Pomocí první smyčky for vypiš pět nejčastějších slov z bow_doc — pro každé slovo použij word_id spolu se dictionary a word_count.

    • K word_id se dostaneš pomocí metody .get() na objektu dictionary.
  • Vytvoř defaultdict s názvem total_word_count, ve kterém budou klíče odpovídat všem id tokenů (word_id) a hodnoty součtu jejich výskytů ve všech dokumentech (word_count).

    • Nezapomeň při vytváření defaultdict zadat int a uvnitř druhé smyčky for zvyšuj každý word_id v total_word_count o hodnotu word_count.