Preprocesamiento de audio
En este ejercicio, aprenderás a ajustar la frecuencia de muestreo de datos de audio y a usar un preprocesador automático. Trabajarás con el VCTK Corpus, que incluye alrededor de 44 horas de voz de 110 hablantes de inglés con diversos acentos.
El dataset ya está cargado.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Remuestrea el audio a una frecuencia de 16.000 Hz en el conjunto de datos usando el método
.cast_column(). - Carga el procesador de audio usando el modelo preentrenado
openai/whisper-small. - Preprocesa los datos de audio del primer punto de datos, indicando la misma frecuencia de muestreo y
padding=True.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])