LoslegenKostenlos loslegen

Audio-Vorverarbeitung

In dieser Übung lernst du, wie du die Abtastrate von Audiodaten anpasst und einen automatischen Preprocessor verwendest. Du arbeitest mit dem VCTK Corpus, das etwa 44 Stunden Sprachdaten von 110 englischen Sprecherinnen und Sprechern mit verschiedenen Akzenten enthält.

Der dataset ist bereits geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Resample das Audio im Datensatz mit der Methode .cast_column() auf eine Frequenz von 16.000 Hz.
  • Lade den Audio-Processor mithilfe des vortrainierten Modells openai/whisper-small.
  • Verarbeite die Audiodaten des ersten Datenpunkts vor und gib dabei dieselbe Samplingrate sowie padding=True an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Code bearbeiten und ausführen