1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

NLTK のトークナイズで正規表現を使う

Twitter は NLP のテキストやタスクでよく使われるデータ源です。この演習では、nltk と正規表現を使って、ハッシュタグやメンションを含むツイート向けの、より複雑なトークナイザを作成します。nltk.tokenize.TweetTokenizer クラスは、ツイートの解析に役立つ追加のメソッドや属性を提供します。

ここでは、nltk.tokenize モジュールの TweetTokenizer と regexp_tokenize の両方でパースするためのサンプルツイートが与えられています。これらのツイートは変数 tweets にあらかじめ読み込まれています。IPython シェルで自由に確認してみてください。

正規表現ライブラリのシンタックスとは異なり、nltk_tokenize() ではパターンを2 番目の引数として渡します。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • nltk.tokenize から、regexp_tokenize と TweetTokenizer をインポートします。