CommencerCommencer gratuitement

Ajuster finement un modèle de synthèse vocale

Vous allez utiliser le VCTK Corpus, qui contient environ 44 heures de parole prononcée par des locuteurs anglophones avec divers accents, afin d’ajuster finement un modèle de synthèse vocale pour reproduire des accents régionaux.

Le dataset a déjà été chargé et prétraité, et le module SpeechT5ForTextToSpeech a été chargé, tout comme les modules Seq2SeqTrainingArguments et Seq2SeqTrainer. Un assembleur de lot de données (data_collator) a été prédéfini.

Veuillez ne pas appeler la méthode .train() sur la configuration du trainer, car ce code expirera dans cet environnement.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le modèle préentraîné microsoft/speecht5_tts avec SpeechT5ForTextToSpeech.
  • Créez une instance de Seq2SeqTrainingArguments avec : gradient_accumulation_steps défini à 8, learning_rate à 0.00001, warmup_steps à 500, et max_steps à 4000.
  • Configurez le trainer avec les nouveaux paramètres d’entraînement, ainsi que le model, les données et le processor fournis.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Modifier et exécuter le code