Ajuster finement un modèle de synthèse vocale
Vous allez utiliser le VCTK Corpus, qui contient environ 44 heures de parole prononcée par des locuteurs anglophones avec divers accents, afin d’ajuster finement un modèle de synthèse vocale pour reproduire des accents régionaux.
Le dataset a déjà été chargé et prétraité, et le module SpeechT5ForTextToSpeech a été chargé, tout comme les modules Seq2SeqTrainingArguments et Seq2SeqTrainer. Un assembleur de lot de données (data_collator) a été prédéfini.
Veuillez ne pas appeler la méthode .train() sur la configuration du trainer, car ce code expirera dans cet environnement.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle préentraîné
microsoft/speecht5_ttsavecSpeechT5ForTextToSpeech. - Créez une instance de
Seq2SeqTrainingArgumentsavec :gradient_accumulation_stepsdéfini à8,learning_rateà0.00001,warmup_stepsà500, etmax_stepsà4000. - Configurez le trainer avec les nouveaux paramètres d’entraînement, ainsi que le
model, les données et leprocessorfournis.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)