LoslegenKostenlos starten

Ein Text-zu-Sprache-Modell optimieren

Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von Englischsprechern mit verschiedenen Akzenten enthält, um ein Text-to-Speech-Modell zu optimieren, das regionale Akzente nachahmt.

Die Datei „ dataset “ wurde schon geladen und vorbereitet, und das Modul „ SpeechT5ForTextToSpeech “ wurde geladen, genauso wie die Module „ Seq2SeqTrainingArguments “ und „ Seq2SeqTrainer “. Ein Datenkollator (data_collator) ist schon fertig eingerichtet.

Ruf die Methode .train() auf die Trainerkonfiguration, da dieser Code in dieser Umgebung eine Zeitüberschreitung verursacht.

Diese Übung ist Teil des Kurses

<Kurs>Multimodale Modelle mit Hugging Face</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade das vorab trainierte Modell „ microsoft/speecht5_tts ” über „ SpeechT5ForTextToSpeech ” (Modell- und Daten-API) und speichere es in „/
  • Mach eine Instanz von „ Seq2SeqTrainingArguments ” mit: „ gradient_accumulation_steps ” auf „ 8 ”, „ learning_rate ” auf „ 0.00001 ”, „ warmup_steps ” auf „ 500 ” und „ max_steps ” auf „ 4000 ”.
  • Konfigurier den Trainer mit den neuen Trainingsargumenten und den angegebenen Dateien „ model “, „data“ und „ processor “.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the text-to-speech pretrained model
model = ____.____(____)

# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
    gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
    push_to_hub=False)

# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
    train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)
Code bearbeiten und ausführen