1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

spaCy の EntityRuler で RegEx を使う

正規表現(RegEx)は、複雑な文字列パターンによるルールベースの情報抽出に使われます。RegEx は、特定のパターンを検索したり、マッチした部分を他のパターンで置き換えたりできます。この演習では、与えられた text からメールアドレスを見つけるために、spaCy の EntityRuler を使う練習をします。

spaCy パッケージはすでにインポートされています。\d を使うと、0〜9 のいずれかの数字にマッチするメタ文字のパターンを表現できます。

spaCy のパターンは属性として REGEX を使えます。この場合、パターンの形は [{"TEXT": {"REGEX": "<a given pattern>"}}] になります。

指示

100 XP
  • EntityRuler で使う、8888888888 形式の電話番号にマッチするパターンを定義します。
  • 空の spaCy 英語モデルを読み込み、パイプラインに EntityRuler コンポーネントを追加します。
  • 作成したパターンを EntityRuler コンポーネントに追加します。
  • モデルを実行し、与えられた text について、エンティティのテキストと種類のタプルを出力してください。