1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Pythonで学ぶ音声言語処理

Connected

Bài tập

spaCy での固有表現認識

固有表現は、都市、人名、日付や時刻など、現実世界に存在する名前付きの対象を指します。転写したテキストから固有表現を見つけるには spaCy を使えます。

この演習では、transcribe_audio() を使って call_4_channel_2.wav(file)を文字起こしし、その後 spaCy の言語モデル en_core_web_sm を用いて、転写テキストを spaCy の doc に変換します。

テキストを spaCy の doc に変換すると、トークン(単語)に対する .text、文に対する .sents、固有表現に対する .ents など、spaCy が備えるテキスト解析機能を活用できます。

Hướng dẫn 1/4

undefined XP
  • 1
    • 転写した call 4 channel 2 のテキストを nlp() に渡して spaCy の doc を作成し、その型を確認します。
  • 2
    • call_4_channel_2_text で spaCy の doc を作成し、.text 属性を使ってすべてのトークンのテキストを出力します。
  • 3
    • 言語モデル "en_core_web_sm" を読み込み、.sents 属性を使って doc 内の文を出力します。
  • 4
    • .ents を使って doc のエンティティにアクセスし、それぞれのテキストを出力します。