1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Regex s tokenizací v NLTK

Twitter je velmi oblíbeným zdrojem textů pro NLP úlohy. V tomto cvičení sestavíš složitější tokenizér pro tweety s hashtagy a zmínkami pomocí nltk a regulárních výrazů. Třída nltk.tokenize.TweetTokenizer ti nabídne několik užitečných metod a atributů pro zpracování tweetů.

Máš k dispozici ukázkové tweety, které budeš parsovat pomocí TweetTokenizer a regexp_tokenize z modulu nltk.tokenize. Tyto tweety jsou předem načtené do proměnné tweets. Klidně si je prozkoumej v IPython Shellu!

Na rozdíl od syntaxe knihovny regex platí, že u nltk_tokenize() předáváš vzor jako druhý argument.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Z nltk.tokenize importuj regexp_tokenize a TweetTokenizer.