1. 学习
  2. /
  3. 课程
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

练习

NLTK のトークナイズで正規表現を使う

Twitter は NLP のテキストやタスクでよく使われるデータ源です。この演習では、nltk と正規表現を使って、ハッシュタグやメンションを含むツイート向けの、より複雑なトークナイザを作成します。nltk.tokenize.TweetTokenizer クラスは、ツイートの解析に役立つ追加のメソッドや属性を提供します。

ここでは、nltk.tokenize モジュールの TweetTokenizer と regexp_tokenize の両方でパースするためのサンプルツイートが与えられています。これらのツイートは変数 tweets にあらかじめ読み込まれています。IPython シェルで自由に確認してみてください。

正規表現ライブラリのシンタックスとは異なり、nltk_tokenize() ではパターンを2 番目の引数として渡します。

说明 1 / 共 4 个

undefined XP
    1
    2
    3
    4
  • nltk.tokenize から、regexp_tokenize と TweetTokenizer をインポートします。