Reconhecimento automático de voz
Neste exercício, você vai usar IA pra transcrever áudio em texto automaticamente! Você vai trabalhar com o VCTK Corpus de novo, que tem cerca de 44 horas de áudio com falantes de inglês com vários sotaques. Você vai usar o modelo Whisper da OpenAI, que tem só 37 milhões de parâmetros pra pré-processar os dados de áudio do VCTK e gerar o texto correspondente.
O pré-processador de áudio (processor) foi carregado, assim como o módulo WhisperForConditionalGeneration. Um ponto de dados de áudio de amostra (sample) já foi carregado.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Carregue o modelo pré-treinado
WhisperForConditionalGenerationusando o ponto de verificaçãoopenai/whisper-tiny. - Pré-processe o ponto de dados
samplecom a taxa de amostragem necessária de16000. - Gere os tokens a partir do modelo usando o atributo “
.input_features” das entradas pré-processadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)