Optimisation d'un modèle de synthèse vocale
Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par des locuteurs anglophones présentant divers accents, afin d'affiner un modèle de synthèse vocale permettant de reproduire les accents régionaux.
La bibliothèque « dataset
» a déjà été chargée et prétraitée, et le module « SpeechT5ForTextToSpeech
» a été chargé, tout comme les modules « Seq2SeqTrainingArguments
» et « Seq2SeqTrainer
». Un collecteur de données (data_collator
) a été prédéfini.
Veuillez ne pas appeler la méthode .train()
méthode sur la configuration du formateur, car ce code expirera dans cet environnement.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle pré-entraîné
microsoft/speecht5_tts
à l'aide de l'SpeechT5ForTextToSpeech
. - Veuillez créer une instance de
Seq2SeqTrainingArguments
avec :gradient_accumulation_steps
défini sur8
,learning_rate
défini sur0.00001
,warmup_steps
défini sur500
etmax_steps
défini sur4000
. - Veuillez configurer le formateur avec les nouveaux arguments de formation, ainsi que l'
model
, les données et l'processor
fournis.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)