1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ音声言語処理

Connected

Exercise

Multiple Speakers 2

1 つの音声ファイルの中で複数話者を見分けることは、speaker diarization(話者分離)と呼ばれます。しかし、これまで使ってきた無料の関数 recognize_google() には、話者ごとに書き起こす機能はありません。

有料の音声認識サービスを使わずに対応する方法の 1 つは、音声ファイルを単一話者にしておくことです。

つまり、電話の通話データを扱う場合は、発信者と受信者を別々に録音しておくということです。そうすれば、各ファイルを個別に文字起こしできます。

この演習では、複数話者の音声ファイルに含まれる各話者をそれぞれ個別に文字起こしします。

Instructions

100 XP
  • speakers を enumerate() 関数に渡して、各話者をループ処理してください。
  • recognizer の record() を呼び出して、AudioFile を AudioData に変換してください。
  • recognize_google() を使って、各 speaker_audio オブジェクトを文字起こししてください。