Optimisation d'un modèle de synthèse vocale
Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par des locuteurs anglophones présentant divers accents, afin d'affiner un modèle de synthèse vocale permettant de reproduire les accents régionaux.
La bibliothèque « dataset » a déjà été chargée et prétraitée, et le module « SpeechT5ForTextToSpeech » a été chargé, tout comme les modules « Seq2SeqTrainingArguments » et « Seq2SeqTrainer ». Un collecteur de données (data_collator) a été prédéfini.
Veuillez ne pas appeler la méthode .train() méthode sur la configuration du formateur, car ce code expirera dans cet environnement.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle pré-entraîné
microsoft/speecht5_ttsà l'aide de l'SpeechT5ForTextToSpeech. - Veuillez créer une instance de
Seq2SeqTrainingArgumentsavec :gradient_accumulation_stepsdéfini sur8,learning_ratedéfini sur0.00001,warmup_stepsdéfini sur500etmax_stepsdéfini sur4000. - Veuillez configurer le formateur avec les nouveaux arguments de formation, ainsi que l'
model, les données et l'processorfournis.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)