Aan de slagGa gratis aan de slag

Een text-to-speechmodel fine-tunen

Je gaat werken met het VCTK Corpus, een gegevensset met ongeveer 44 uur aan spraakdata van Engelstalige sprekers met verschillende accenten, om een text-to-speechmodel te fine-tunen dat regionale accenten kan nabootsen.

De dataset is al geladen en voorbewerkt, en de module SpeechT5ForTextToSpeech is ingeladen, net als de modules Seq2SeqTrainingArguments en Seq2SeqTrainer. Een datacollator (data_collator) is vooraf gedefinieerd.

Roep alsjeblieft niet de .train() -methode aan op de trainerconfiguratie, omdat deze code in deze omgeving zal time-outen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Laad het pretrained model microsoft/speecht5_tts met SpeechT5ForTextToSpeech.
  • Maak een instantie van Seq2SeqTrainingArguments met: gradient_accumulation_steps op 8, learning_rate op 0.00001, warmup_steps op 500 en max_steps op 4000.
  • Configureer de trainer met de nieuwe trainingsargumenten, en de gegeven model, data en processor.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Code bewerken en uitvoeren