PyDub で音声ファイルを正規化する

音声ファイルによっては、ある部分は大きく、別の部分は小さく聞こえることがあります。音量のばらつきが大きいと、文字起こしの精度が落ちてしまいます。

幸い、PyDub の effects モジュールには normalize() という関数があり、AudioSegment の最大音量を見つけて、残りの音量をそれに合わせて調整します。つまり、静かな部分の音量が持ち上がります。

最初は大きく、その後小さくなる音声ファイルの例 loud_then_quiet.wav は、こちらから試聴できます。