Reconocimiento automático del habla
En este ejercicio, utilizarás la IA para transcribir audio a texto automáticamente. Volverás a trabajar con el corpus VCTK, que incluye alrededor de 44 horas de habla de hablantes de inglés con diversos acentos. Utilizarás el modelo Whisper de OpenAI, que contiene solo 37 millones de parámetros para preprocesar los datos de audio VCTK y generar el texto correspondiente.
Se ha cargado el preprocesador de audio (processor), al igual que el módulo WhisperForConditionalGeneration. Ya se ha cargado un punto de datos de audio de muestra (sample).
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Carga el modelo preentrenado
WhisperForConditionalGenerationutilizando el punto de controlopenai/whisper-tiny. - Preprocesa el punto de datos «
sample» con la frecuencia de muestreo requerida de «16000». - Genera los tokens a partir del modelo utilizando el atributo «
.input_features» de las entradas preprocesadas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)