ComenzarEmpieza gratis

Preprocesamiento de audio

En este ejercicio, aprenderás a ajustar la frecuencia de muestreo de los datos de audio, así como a utilizar un preprocesador automático. Trabajarás con el corpus VCTK, que incluye alrededor de 44 horas de datos de voz pronunciados por 110 hablantes de inglés con diversos acentos.

El archivo « dataset » ya se ha cargado.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Remuestrea el audio a una frecuencia de 16 000 Hz en el conjunto de datos utilizando el método « .cast_column() ».
  • Carga el procesador de audio utilizando el modelo preentrenado openai/whisper-small.
  • Preprocesa los datos de audio del primer punto de datos, especificando la frecuencia de muestreo y

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Editar y ejecutar código