Stereo-Audio mit PyDub in Mono aufteilen

Wenn du Telefonate transkribieren willst, kann es sein, dass sie im Stereoformat aufgenommen wurden – mit je einer Sprecherin bzw. einem Sprecher pro Kanal.

Wie du gesehen hast, ist es schwierig, eine Audiodatei mit mehr als einer Stimme zu transkribieren. Eine Lösung ist, die Datei mit mehreren Sprecher:innen in einzelne Dateien mit jeweils einer Stimme aufzuteilen.

Die Funktion split_to_mono() von PyDub hilft dir dabei. Auf ein stereo-AudioSegment angewendet, gibt sie eine Liste aus zwei separaten AudioSegment-Objekten im Monoformat zurück – eines pro Kanal.

In dieser Übung übst du das, indem du diese Aufnahme eines Stereo-Telefonats (stereo_phone_call.wav) in Kanal 1 und Kanal 2 aufteilst. So trennst du die beiden Stimmen und kannst sie leichter transkribieren.

Diese Übung ist Teil des Kurses

<Kurs>Verarbeitung gesprochener Sprache in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere AudioSegment aus pydub.
Erzeuge eine AudioSegment-Instanz stereo_phone_call mit stereo_phone_call.wav.
Teile stereo_phone_call mit split_to_mono() in channels auf und prüfe die Kanäle der Ausgabe.
Speichere jeden Kanal in neuen Variablen: phone_call_channel_1 und phone_call_channel_2.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import AudioSegment
from ____ import ____

# Import stereo audio file and check channels
stereo_phone_call = AudioSegment.from_file(____)
print(f"Stereo number channels: {stereo_phone_call.channels}")

# Split stereo phone call and check channels
channels = stereo_phone_call.____
print(f"Split number channels: {channels[0].____}, {channels[1].____}")

# Save new channels separately
phone_call_channel_1 = channels[0]
phone_call_channel_2 = ____

Code bearbeiten und ausführen