ComeçarComece de graça

Ajustando um modelo de conversão de texto em fala

Você vai trabalhar com o VCTK Corpus, que tem cerca de 44 horas de dados de fala de pessoas que falam inglês com vários sotaques, pra ajustar um modelo de conversão de texto em fala pra reproduzir sotaques regionais.

O dataset já foi carregado e pré-processado, e o módulo SpeechT5ForTextToSpeech foi carregado, assim como os módulos Seq2SeqTrainingArguments e Seq2SeqTrainer. Um coletor de dados (data_collator) já está pronto.

Não chame o método .train() método na configuração do treinador, pois esse código irá expirar neste ambiente.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Carregue o modelo pré-treinado microsoft/speecht5_tts usando SpeechT5ForTextToSpeech.
  • Crie uma instância de Seq2SeqTrainingArguments com: gradient_accumulation_steps definido como 8, learning_rate definido como 0.00001, warmup_steps definido como 500 e max_steps definido como 4000.
  • Configure o treinador com os novos argumentos de treinamento e o model, os dados e o processor fornecidos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Editar e executar o código