Preprocesamiento de audio
En este ejercicio, aprenderás a ajustar la frecuencia de muestreo de los datos de audio, así como a utilizar un preprocesador automático. Trabajarás con el corpus VCTK, que incluye alrededor de 44 horas de datos de voz pronunciados por 110 hablantes de inglés con diversos acentos.
El archivo « dataset » ya se ha cargado.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Remuestrea el audio a una frecuencia de 16 000 Hz en el conjunto de datos utilizando el método «
.cast_column()». - Carga el procesador de audio utilizando el modelo preentrenado
openai/whisper-small. - Preprocesa los datos de audio del primer punto de datos, especificando la frecuencia de muestreo y
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])