LoslegenKostenlos loslegen

Audio-Vorverarbeitung

In dieser Übung lernst du, wie du die Abtastrate von Audiodaten anpasst und wie du einen automatischen Vorprozessor benutzt. Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von 110 englischen Sprechern mit verschiedenen Akzenten enthält.

Die Datei „ dataset “ wurde schon geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Re-sample die Audiodaten im Datensatz mit der Methode „ .cast_column() “ auf eine Frequenz von 16.000 Hz.
  • Lade den Audio-Prozessor mit dem vorab trainierten Modell „ openai/whisper-small ”.
  • Bereite die Audiodaten des ersten Datenpunkts vor und gib die Abtastrate und

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Code bearbeiten und ausführen