LoslegenKostenlos starten

Audio-Vorverarbeitung

In dieser Übung lernst du, wie du die Abtastrate von Audiodaten anpasst und einen automatischen Preprocessor verwendest. Du arbeitest mit dem VCTK Corpus, das etwa 44 Stunden Sprachdaten von 110 englischen Sprecherinnen und Sprechern mit verschiedenen Akzenten enthält.

Der dataset ist bereits geladen.

Diese Übung ist Teil des Kurses

<Kurs>Multimodale Modelle mit Hugging Face</Kurs>
Kurs ansehen

Übungsanweisungen

  • Resample das Audio im Datensatz mit der Methode .cast_column() auf eine Frequenz von 16.000 Hz.
  • Lade den Audio-Processor mithilfe des vortrainierten Modells openai/whisper-small.
  • Verarbeite die Audiodaten des ersten Datenpunkts vor und gib dabei dieselbe Samplingrate sowie padding=True an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Code bearbeiten und ausführen