ComeçarComece de graça

Reconhecimento automático de voz

Neste exercício, você vai usar IA pra transcrever áudio em texto automaticamente! Você vai trabalhar com o VCTK Corpus de novo, que tem cerca de 44 horas de áudio com falantes de inglês com vários sotaques. Você vai usar o modelo Whisper da OpenAI, que tem só 37 milhões de parâmetros pra pré-processar os dados de áudio do VCTK e gerar o texto correspondente.

O pré-processador de áudio (processor) foi carregado, assim como o módulo WhisperForConditionalGeneration. Um ponto de dados de áudio de amostra (sample) já foi carregado.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Carregue o modelo pré-treinado WhisperForConditionalGeneration usando o ponto de verificação openai/whisper-tiny.
  • Pré-processe o ponto de dados sample com a taxa de amostragem necessária de 16000.
  • Gere os tokens a partir do modelo usando o atributo “ .input_features ” das entradas pré-processadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Editar e executar o código