PyDub でステレオ音声をモノラルに分割する

電話の通話録音を文字起こしするとき、ステレオ形式で録音され、左右のチャンネルに話者がそれぞれ割り当てられている可能性があります。

ご覧のとおり、複数の話者がいる音声ファイルをそのまま文字起こしするのは難しいです。解決策の一つは、複数話者の音声ファイルを、話者ごとの単一ファイルに分割することです。

PyDub の split_to_mono() 関数が役立ちます。ステレオで録音された AudioSegment に対して呼び出すと、各チャンネルに対応する 2 つのモノラルの AudioSegment のリストを返します。