IniziaInizia gratis

Preprocessing dell'audio

In questo esercizio imparerai come regolare la frequenza di campionamento dei dati audio e come usare un preprocessore automatico. Lavorerai con il VCTK Corpus, che include circa 44 ore di parlato registrato da 110 speaker inglesi con vari accenti.

Il dataset è già stato caricato.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Ricampiona l'audio a una frequenza di 16.000 Hz nell'insieme di dati usando il metodo .cast_column().
  • Carica l'audio processor usando il modello pretrained openai/whisper-small.
  • Preprocessa i dati audio del primo datapoint, specificando la stessa frequenza di campionamento e padding=True.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Modifica ed esegui il codice