1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ音声言語処理

Connected

Exercise

PyDub でステレオ音声をモノラルに分割する

電話の通話録音を文字起こしするとき、ステレオ形式で録音され、左右のチャンネルに話者がそれぞれ割り当てられている可能性があります。

ご覧のとおり、複数の話者がいる音声ファイルをそのまま文字起こしするのは難しいです。解決策の一つは、複数話者の音声ファイルを、話者ごとの単一ファイルに分割することです。

PyDub の split_to_mono() 関数が役立ちます。ステレオで録音された AudioSegment に対して呼び出すと、各チャンネルに対応する 2 つのモノラルの AudioSegment のリストを返します。

この演習では、ステレオの通話音声(stereo_phone_call.wav)を チャンネル1 と チャンネル2 に分割します。これにより話者を分離でき、文字起こしが容易になります。

Инструкции

100 XP
  • pydub から AudioSegment をインポートします。
  • stereo_phone_call.wav を使って、AudioSegment インスタンス stereo_phone_call を作成します。
  • split_to_mono() を使って stereo_phone_call を channels に分割し、結果のチャンネルを確認します。
  • 各チャンネルを新しい変数 phone_call_channel_1 と phone_call_channel_2 に保存します。