1. Learn
  2. /
  3. Courses
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

Exercise

トークナイザーを選ぶ

次の文字列について、以下のどのパターンが最適なトークナイザーでしょうか。可能であれば、文の句読点は個別のトークンとして残しつつ、'#1' は単一のトークンのままにしたいです。

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

この文字列はワークスペースで my_string として利用できます。パターンはそれぞれ pattern1、pattern2、pattern3、pattern4 として読み込まれています。

また、nltk.tokenize から regexp_tokenize がインポートされています。regexp_tokenize(string, pattern) を、my_string といずれかのパターンを引数にして使い、自分で試しながら最適なトークナイザーを見つけてください。

Instructions

50 XP

Possible answers