Aan de slagGa gratis aan de slag

Voorbewerking van audio

In deze oefening leer je hoe je de samplingfrequentie van audiodata aanpast en hoe je een automatische preprocessor gebruikt. Je werkt met het VCTK Corpus, dat ongeveer 44 uur aan spraakdata bevat, ingesproken door 110 Engelstalige sprekers met verschillende accenten.

De dataset is al geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Resample de audio in de gegevensset naar een frequentie van 16.000 Hz met de methode .cast_column().
  • Laad de audioprocessor met het voorgetrainde model openai/whisper-small.
  • Verwerk de audiodata van het eerste datapunt voor, met dezelfde samplingfrequentie en padding=True.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Code bewerken en uitvoeren