Een text-to-speechmodel fine-tunen
Je gaat werken met het VCTK Corpus, een gegevensset met ongeveer 44 uur aan spraakdata van Engelstalige sprekers met verschillende accenten, om een text-to-speechmodel te fine-tunen dat regionale accenten kan nabootsen.
De dataset is al geladen en voorbewerkt, en de module SpeechT5ForTextToSpeech is ingeladen, net als de modules Seq2SeqTrainingArguments en Seq2SeqTrainer. Een datacollator (data_collator) is vooraf gedefinieerd.
Roep alsjeblieft niet de .train() -methode aan op de trainerconfiguratie, omdat deze code in deze omgeving zal time-outen.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Laad het pretrained model
microsoft/speecht5_ttsmetSpeechT5ForTextToSpeech. - Maak een instantie van
Seq2SeqTrainingArgumentsmet:gradient_accumulation_stepsop8,learning_rateop0.00001,warmup_stepsop500enmax_stepsop4000. - Configureer de trainer met de nieuwe trainingsargumenten, en de gegeven
model, data enprocessor.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)