1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

NLTK による単語のトークン化

ここでは、Monty Python の Holy Grail の最初のシーンを scene_one としてあらかじめ読み込んであります。IPython シェルで中身を確認してみてもかまいません。

この演習では、nltk.tokenize の word_tokenize と sent_tokenize を使って、Python の文字列から単語と文をそれぞれトークン化します。対象は Monty Python の Holy Grail の最初のシーンです。

指示

100 XP
  • nltk.tokenize から sent_tokenize と word_tokenize 関数をインポートします。
  • sent_tokenize() 関数を使って、scene_one に含まれるすべての文をトークン化します。
  • word_tokenize() 関数を使って、sentences[3] としてアクセスできる 4 番目の文をトークン化します。
  • scene_one に対して word_tokenize() を実行し、その結果を set() に渡して、このシーン全体で一意なトークンを求めます。
  • 見つかった一意なトークンを出力します。これはすでに用意してあるので、"Submit Answer" を押して結果を確認してください。