Preprocessing dell'audio
In questo esercizio imparerai come regolare la frequenza di campionamento dei dati audio e come usare un preprocessore automatico. Lavorerai con il VCTK Corpus, che include circa 44 ore di parlato registrato da 110 speaker inglesi con vari accenti.
Il dataset è già stato caricato.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Ricampiona l'audio a una frequenza di 16.000 Hz nell'insieme di dati usando il metodo
.cast_column(). - Carica l'audio processor usando il modello pretrained
openai/whisper-small. - Preprocessa i dati audio del primo datapoint, specificando la stessa frequenza di campionamento e
padding=True.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])