Voorbewerking van audio
In deze oefening leer je hoe je de samplingfrequentie van audiodata aanpast en hoe je een automatische preprocessor gebruikt. Je werkt met het VCTK Corpus, dat ongeveer 44 uur aan spraakdata bevat, ingesproken door 110 Engelstalige sprekers met verschillende accenten.
De dataset is al geladen.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Resample de audio in de gegevensset naar een frequentie van 16.000 Hz met de methode
.cast_column(). - Laad de audioprocessor met het voorgetrainde model
openai/whisper-small. - Verwerk de audiodata van het eerste datapunt voor, met dezelfde samplingfrequentie en
padding=True.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])