1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

PythonでのRegEx

ルールベースの情報抽出は、多くのNLPタスクで役立ちます。日付や電話番号のような特定の種類のエンティティは、はっきりとした形式を持つため、モデルを学習しなくても、いくつかのルールで認識できます。この演習では、RegExのための re パッケージを使う練習をします。目的は、与えられた text から電話番号を見つけることです。

re パッケージはすでにインポートされています。\d を使うと、0〜9の任意の数字にマッチするメタ文字を表す文字パターンに一致させられます。

指示

100 XP
  • 形式 (111)-111-1111 の電話番号にマッチするパターンを定義します。
  • re.finditer() メソッドを使って、すべての一致パターンを見つけます。
  • 各一致について、与えられた text の開始位置・終了位置・一致した部分を出力します。