ComenzarEmpieza gratis

Preprocesamiento de audio

En este ejercicio, aprenderás a ajustar la frecuencia de muestreo de datos de audio y a usar un preprocesador automático. Trabajarás con el VCTK Corpus, que incluye alrededor de 44 horas de voz de 110 hablantes de inglés con diversos acentos.

El dataset ya está cargado.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Remuestrea el audio a una frecuencia de 16.000 Hz en el conjunto de datos usando el método .cast_column().
  • Carga el procesador de audio usando el modelo preentrenado openai/whisper-small.
  • Preprocesa los datos de audio del primer punto de datos, indicando la misma frecuencia de muestreo y padding=True.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Editar y ejecutar código