1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

アノテーションと学習データの準備

データを収集したら、spaCy モデルに必要な形式でデータにアノテーションを付けます。この演習では、医療領域の NER タスクに向けて、正しい注釈レコードを作成する練習をします。

sentence と、テキストが chest pain・タイプが SYMPTOM の entity_1、テキストが hyperthyroidism・タイプが DISEASE の entity_2 が用意されています。

指示

100 XP
  • 正しい形式で annotated_data レコードを完成させてください。
  • 各エンティティの開始文字と終了文字を抽出し、対応する変数に保存してください。
  • 同じ入力文とそのエンティティを、適切な学習用フォーマットで training_data として保存してください。