1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Sestavení Counteru pomocí bag-of-words

V tomto cvičení sestavíš svůj první bag-of-words counter v tomto kurzu – a to na základě článku z Wikipedie, který je předem načtený jako article. Zkus odhadnout téma článku, aniž bys četl/a jeho celý text – jen na základě výsledků! Pokud si chceš na závěr ověřit název článku, najdeš ho v proměnné article_title. Počítej s tím, že text článku prošel jen minimálním předzpracováním oproti surovému záznamu z databáze Wikipedie.

Funkce word_tokenize je již naimportovaná.

Pokyny

100 XP
  • Importuj Counter z modulu collections.
  • Pomocí word_tokenize() rozděl článek na tokeny.
  • Pomocí list comprehension s iterační proměnnou t převeď všechny tokeny na malá písmena. Metoda .lower() převede text na malá písmena.
  • Vytvoř bag-of-words counter s názvem bow_simple pomocí Counter() s argumentem lower_tokens.
  • Pomocí metody .most_common() objektu bow_simple vypiš 10 nejčastějších tokenů.