1. Learn
  2. /
  3. Courses
  4. /
  5. Przetwarzanie mowy w Pythonie

Connected

Exercise

Normalizacja pliku audio za pomocą PyDub

Czasem pliki audio zawierają fragmenty, w których mowa jest głośna, i takie, gdzie jest cicha. Taka zmienność głośności może utrudniać transkrypcję.

Na szczęście moduł effects biblioteki PyDub udostępnia funkcję normalize(), która wyszukuje maksymalną głośność w obiekcie AudioSegment, a następnie dostosowuje do niej pozostałe fragmenty. Dzięki temu cichsze partie uzyskują odpowiedni wzmocnienie głośności.

Możesz posłuchać przykładowego pliku audio, który zaczyna się głośno, a potem ścisza – loud_then_quiet.wav – tutaj.

W tym ćwiczeniu użyjesz funkcji normalize(), aby wyrównać głośność pliku – efekt powinien brzmieć mniej więcej tak.

Instructions

100 XP
  • Zaimportuj AudioSegment z PyDub oraz normalize z modułu effects biblioteki PyDub.
  • Wczytaj docelowy plik audio loud_then_quiet.wav i zapisz go do zmiennej loud_then_quiet.
  • Znormalizuj wczytany plik audio za pomocą funkcji normalize() i zapisz wynik do zmiennej normalized_loud_then_quiet.