複数話者 1

会話を文字起こしする場合、話者は1人とは限りません。ただしご覧のとおり、recognize_google() は発話を1つのテキストブロックにしか変換しません。

この音声ファイルでは、3人の異なる話者がいることが分かります。

しかし、この音声をそのまま文字起こしすると、recognize_google() は1つのテキストブロックを返します。これは有用ではありますが、誰が何を話したかは分かりません。

次の演習では、これに代わる方法を見ていきます。

複数話者の音声ファイルはすでにインポートされ、AudioData に変換されて multiple_speakers という名前で用意されています。

Recognizer のインスタンスを作成します。
recognize_google() 関数で multiple_speakers 変数を認識します。
言語を米国英語（"en-US"）に設定します。