IniziaInizia gratis

Fine-tuning di un modello text-to-speech

Lavorerai con il VCTK Corpus, che include circa 44 ore di dati vocali pronunciati da speaker inglesi con vari accenti, per fare il fine-tuning di un modello text-to-speech in modo da replicare accenti regionali.

Il dataset è già stato caricato e preprocessato, e il modulo SpeechT5ForTextToSpeech è stato caricato, così come i moduli Seq2SeqTrainingArguments e Seq2SeqTrainer. Un data collator (data_collator) è stato predefinito.

Per favore, non chiamare il metodo .train() sulla configurazione del trainer, perché questo codice andrebbe in timeout in questo ambiente.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello preaddestrato microsoft/speecht5_tts usando SpeechT5ForTextToSpeech.
  • Crea un'istanza di Seq2SeqTrainingArguments con: gradient_accumulation_steps impostato a 8, learning_rate a 0.00001, warmup_steps a 500 e max_steps a 4000.
  • Configura il trainer con i nuovi argomenti di training e con il model, i dati e il processor forniti.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Modifica ed esegui il codice