Fine-tuning di un modello text-to-speech
Lavorerai con il VCTK Corpus, che include circa 44 ore di dati vocali pronunciati da speaker inglesi con vari accenti, per fare il fine-tuning di un modello text-to-speech in modo da replicare accenti regionali.
Il dataset è già stato caricato e preprocessato, e il modulo SpeechT5ForTextToSpeech è stato caricato, così come i moduli Seq2SeqTrainingArguments e Seq2SeqTrainer. Un data collator (data_collator) è stato predefinito.
Per favore, non chiamare il metodo .train() sulla configurazione del trainer, perché questo codice andrebbe in timeout in questo ambiente.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Carica il modello preaddestrato
microsoft/speecht5_ttsusandoSpeechT5ForTextToSpeech. - Crea un'istanza di
Seq2SeqTrainingArgumentscon:gradient_accumulation_stepsimpostato a8,learning_ratea0.00001,warmup_stepsa500emax_stepsa4000. - Configura il trainer con i nuovi argomenti di training e con il
model, i dati e ilprocessorforniti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)