1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ音声言語処理

Connected

Exercise

複数話者 1

会話を文字起こしする場合、話者は1人とは限りません。ただしご覧のとおり、recognize_google() は発話を1つのテキストブロックにしか変換しません。

この音声ファイルでは、3人の異なる話者がいることが分かります。

しかし、この音声をそのまま文字起こしすると、recognize_google() は1つのテキストブロックを返します。これは有用ではありますが、誰が何を話したかは分かりません。

次の演習では、これに代わる方法を見ていきます。

複数話者の音声ファイルはすでにインポートされ、AudioData に変換されて multiple_speakers という名前で用意されています。

Instructions

100 XP
  • Recognizer のインスタンスを作成します。
  • recognize_google() 関数で multiple_speakers 変数を認識します。
  • 言語を米国英語("en-US")に設定します。