Ajustando um modelo de conversão de texto em fala
Você vai trabalhar com o VCTK Corpus, que tem cerca de 44 horas de dados de fala de pessoas que falam inglês com vários sotaques, pra ajustar um modelo de conversão de texto em fala pra reproduzir sotaques regionais.
O dataset já foi carregado e pré-processado, e o módulo SpeechT5ForTextToSpeech foi carregado, assim como os módulos Seq2SeqTrainingArguments e Seq2SeqTrainer. Um coletor de dados (data_collator) já está pronto.
Não chame o método .train() método na configuração do treinador, pois esse código irá expirar neste ambiente.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Carregue o modelo pré-treinado
microsoft/speecht5_ttsusandoSpeechT5ForTextToSpeech. - Crie uma instância de
Seq2SeqTrainingArgumentscom:gradient_accumulation_stepsdefinido como8,learning_ratedefinido como0.00001,warmup_stepsdefinido como500emax_stepsdefinido como4000. - Configure o treinador com os novos argumentos de treinamento e o
model, os dados e oprocessorfornecidos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)