NLTK のトークナイズで正規表現を使う

Twitter は NLP のテキストやタスクでよく使われるデータ源です。この演習では、nltk と正規表現を使って、ハッシュタグやメンションを含むツイート向けの、より複雑なトークナイザを作成します。nltk.tokenize.TweetTokenizer クラスは、ツイートの解析に役立つ追加のメソッドや属性を提供します。

ここでは、nltk.tokenize モジュールの TweetTokenizer と regexp_tokenize の両方でパースするためのサンプルツイートが与えられています。これらのツイートは変数 tweets にあらかじめ読み込まれています。IPython シェルで自由に確認してみてください。

正規表現ライブラリのシンタックスとは異なり、nltk_tokenize() ではパターンを2 番目の引数として渡します。