Normalisieren einer Audiodatei mit PyDub
Manchmal enthalten Audiodateien Passagen, in denen die Sprache teils laut und teils leise ist. Diese Lautstärkeschwankungen können die Transkription erschweren.
Zum Glück hat das Effekte-Modul von PyDub eine Funktion namens normalize(). Sie findet die maximale Lautstärke eines AudioSegment und passt den Rest des AudioSegment proportional daran an. Das bedeutet, die leisen Teile bekommen einen Lautstärkeschub.
Du kannst dir ein Beispiel einer Audiodatei anhören, die laut beginnt und dann leiser wird, loud_then_quiet.wav, hier.
In dieser Übung verwendest du normalize(), um die Lautstärke unserer Datei zu normalisieren, sodass sie ungefähr so klingt.
Diese Übung ist Teil des Kurses
Verarbeitung gesprochener Sprache in Python
Anleitung zur Übung
- Importiere
AudioSegmentausPyDubundnormalizeaus dem Effekte-Modul vonPyDub. - Importiere die Zieldatei
loud_then_quiet.wavund speichere sie inloud_then_quiet. - Normalisiere die importierte Audiodatei mit der Funktion
normalize()und speichere das Ergebnis innormalized_loud_then_quiet.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import AudioSegment and normalize
from pydub import ____
from pydub.effects import ____
# Import target audio file
loud_then_quiet = AudioSegment.from_file(____)
# Normalize target audio file
normalized_loud_then_quiet = ____(____)