1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ音声言語処理

Connected

演習

PyDub で音声ファイルを正規化する

音声ファイルによっては、ある部分は大きく、別の部分は小さく聞こえることがあります。音量のばらつきが大きいと、文字起こしの精度が落ちてしまいます。

幸い、PyDub の effects モジュールには normalize() という関数があり、AudioSegment の最大音量を見つけて、残りの音量をそれに合わせて調整します。つまり、静かな部分の音量が持ち上がります。

最初は大きく、その後小さくなる音声ファイルの例 loud_then_quiet.wav は、こちら から試聴できます。

この演習では、normalize() を使ってファイルの音量を正規化し、このような音に近づけます。

指示

100 XP
  • PyDub から AudioSegment を、PyDub の effects モジュールから normalize をインポートします。
  • 対象の音声ファイル loud_then_quiet.wav を読み込み、loud_then_quiet に保存します。
  • 読み込んだ音声ファイルを normalize() 関数で正規化し、normalized_loud_then_quiet に保存します。