Audio-Vorverarbeitung
In dieser Übung lernst du, wie du die Abtastrate von Audiodaten anpasst und wie du einen automatischen Vorprozessor benutzt. Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von 110 englischen Sprechern mit verschiedenen Akzenten enthält.
Die Datei „ dataset “ wurde schon geladen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Re-sample die Audiodaten im Datensatz mit der Methode „
.cast_column()“ auf eine Frequenz von 16.000 Hz. - Lade den Audio-Prozessor mit dem vorab trainierten Modell „
openai/whisper-small”. - Bereite die Audiodaten des ersten Datenpunkts vor und gib die Abtastrate und
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])