Aan de slagBegin gratis

Voorbewerking van audio

In deze oefening leer je hoe je de samplingfrequentie van audiodata aanpast en hoe je een automatische preprocessor gebruikt. Je werkt met het VCTK Corpus, dat ongeveer 44 uur aan spraakdata bevat, ingesproken door 110 Engelstalige sprekers met verschillende accenten.

De dataset is al geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Bekijk cursus

Oefeninstructies

  • Resample de audio in de gegevensset naar een frequentie van 16.000 Hz met de methode .cast_column().
  • Laad de audioprocessor met het voorgetrainde model openai/whisper-small.
  • Verwerk de audiodata van het eerste datapunt voor, met dezelfde samplingfrequentie en padding=True.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Code bewerken en uitvoeren