LoslegenKostenlos loslegen

Ein Text-zu-Sprache-Modell optimieren

Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von Englischsprechern mit verschiedenen Akzenten enthält, um ein Text-to-Speech-Modell zu optimieren, das regionale Akzente nachahmt.

Die Datei „ dataset “ wurde schon geladen und vorbereitet, und das Modul „ SpeechT5ForTextToSpeech “ wurde geladen, genauso wie die Module „ Seq2SeqTrainingArguments “ und „ Seq2SeqTrainer “. Ein Datenkollator (data_collator) ist schon fertig eingerichtet.

Ruf die Methode .train() auf die Trainerkonfiguration, da dieser Code in dieser Umgebung eine Zeitüberschreitung verursacht.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Lade das vorab trainierte Modell „ microsoft/speecht5_tts ” über „ SpeechT5ForTextToSpeech ” (Modell- und Daten-API) und speichere es in „/
  • Mach eine Instanz von „ Seq2SeqTrainingArguments ” mit: „ gradient_accumulation_steps ” auf „ 8 ”, „ learning_rate ” auf „ 0.00001 ”, „ warmup_steps ” auf „ 500 ” und „ max_steps ” auf „ 4000 ”.
  • Konfigurier den Trainer mit den neuen Trainingsargumenten und den angegebenen Dateien „ model “, „data“ und „ processor “.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Code bearbeiten und ausführen