cvičení

Regex s tokenizací v NLTK

Twitter je velmi oblíbeným zdrojem textů pro NLP úlohy. V tomto cvičení sestavíš složitější tokenizér pro tweety s hashtagy a zmínkami pomocí nltk a regulárních výrazů. Třída nltk.tokenize.TweetTokenizer ti nabídne několik užitečných metod a atributů pro zpracování tweetů.

Máš k dispozici ukázkové tweety, které budeš parsovat pomocí TweetTokenizer a regexp_tokenize z modulu nltk.tokenize. Tyto tweety jsou předem načtené do proměnné tweets. Klidně si je prozkoumej v IPython Shellu!

Na rozdíl od syntaxe knihovny regex platí, že u nltk_tokenize() předáváš vzor jako druhý argument.

Pokyny 1/4

undefined XP

Z nltk.tokenize importuj regexp_tokenize a TweetTokenizer.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny 1/4

cvičení