1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Tokenizace slov pomocí NLTK

V tomto cvičení pracuješ s první scénou z Monty Python's Holy Grail, která je předem načtená jako scene_one. Klidně si ji prohlédni v IPython Shellu!

Tvým úkolem je využít funkce word_tokenize a sent_tokenize z knihovny nltk.tokenize k tokenizaci slov i vět z řetězců v Pythonu – konkrétně z první scény Monty Python's Holy Grail.

Pokyny

100 XP
  • Importuj funkce sent_tokenize a word_tokenize z nltk.tokenize.
  • Tokenizuj všechny věty v scene_one pomocí funkce sent_tokenize().
  • Tokenizuj čtvrtou větu v sentences, ke které přistoupíš jako sentences[3], pomocí funkce word_tokenize().
  • Najdi unikátní tokeny v celé scéně tak, že spustíš word_tokenize() na scene_one a výsledek převedeš na množinu pomocí set().
  • Vypiš nalezené unikátní tokeny. Tento krok je už připravený, stačí kliknout na 'Submit Answer' a zobrazit výsledky!