ComenzarEmpieza gratis

Reconocimiento automático del habla

En este ejercicio, utilizarás la IA para transcribir audio a texto automáticamente. Volverás a trabajar con el corpus VCTK, que incluye alrededor de 44 horas de habla de hablantes de inglés con diversos acentos. Utilizarás el modelo Whisper de OpenAI, que contiene solo 37 millones de parámetros para preprocesar los datos de audio VCTK y generar el texto correspondiente.

Se ha cargado el preprocesador de audio (processor), al igual que el módulo WhisperForConditionalGeneration. Ya se ha cargado un punto de datos de audio de muestra (sample).

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Carga el modelo preentrenado WhisperForConditionalGeneration utilizando el punto de control openai/whisper-tiny.
  • Preprocesa el punto de datos « sample » con la frecuencia de muestreo requerida de « 16000 ».
  • Genera los tokens a partir del modelo utilizando el atributo « .input_features » de las entradas preprocesadas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Editar y ejecutar código