CommencerCommencer gratuitement

Optimisation d'un modèle de synthèse vocale

Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par des locuteurs anglophones présentant divers accents, afin d'affiner un modèle de synthèse vocale permettant de reproduire les accents régionaux.

La bibliothèque « dataset » a déjà été chargée et prétraitée, et le module « SpeechT5ForTextToSpeech » a été chargé, tout comme les modules « Seq2SeqTrainingArguments » et « Seq2SeqTrainer ». Un collecteur de données (data_collator) a été prédéfini.

Veuillez ne pas appeler la méthode .train() méthode sur la configuration du formateur, car ce code expirera dans cet environnement.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le modèle pré-entraîné microsoft/speecht5_tts à l'aide de l'SpeechT5ForTextToSpeech.
  • Veuillez créer une instance de Seq2SeqTrainingArguments avec : gradient_accumulation_steps défini sur 8, learning_rate défini sur 0.00001, warmup_steps défini sur 500 et max_steps défini sur 4000.
  • Veuillez configurer le formateur avec les nouveaux arguments de formation, ainsi que l'model, les données et l'processor fournis.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Modifier et exécuter le code