1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

spaCy の PhraseMatcher

非構造化テキストを処理する際、与えられたテキスト内で走査・照合したい長いリストや辞書を扱うことがよくあります。Matcher のパターンは手作業で作成し、各トークンを個別に記述する必要があります。フレーズのリストが長い場合は、Matcher は最適ではありません。こうした場面では、PhraseMatcher クラスを使うと大きな辞書の照合が行えます。この演習では、PhraseMatcher クラスを用いて、複数の用語に対して同じ形状に一致するパターンを取得する練習をします。

en_core_web_sm モデルはすでに読み込まれており、nlp として利用できます。PhraseMatcher クラスはインポート済みです。text 文字列と terms のリストも用意されています。

指示

100 XP
  • 指定された terms の形状にマッチさせるため、attr を指定して PhraseMatcher クラスを初期化します。
  • PhraseMatcher オブジェクトに追加するための patterns を作成します。
  • 与えられたパターンに対するマッチを見つけ、text の開始・終了トークンのインデックスと一致した部分を出力します。