Ein Text-zu-Sprache-Modell optimieren
Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von Englischsprechern mit verschiedenen Akzenten enthält, um ein Text-to-Speech-Modell zu optimieren, das regionale Akzente nachahmt.
Die Datei „ dataset “ wurde schon geladen und vorbereitet, und das Modul „ SpeechT5ForTextToSpeech “ wurde geladen, genauso wie die Module „ Seq2SeqTrainingArguments “ und „ Seq2SeqTrainer “. Ein Datenkollator (data_collator) ist schon fertig eingerichtet.
Ruf die Methode .train() auf die Trainerkonfiguration, da dieser Code in dieser Umgebung eine Zeitüberschreitung verursacht.
Diese Übung ist Teil des Kurses
<Kurs>Multimodale Modelle mit Hugging Face</Kurs>Übungsanweisungen
- Lade das vorab trainierte Modell „
microsoft/speecht5_tts” über „SpeechT5ForTextToSpeech” (Modell- und Daten-API) und speichere es in „/ - Mach eine Instanz von „
Seq2SeqTrainingArguments” mit: „gradient_accumulation_steps” auf „8”, „learning_rate” auf „0.00001”, „warmup_steps” auf „500” und „max_steps” auf „4000”. - Konfigurier den Trainer mit den neuen Trainingsargumenten und den angegebenen Dateien „
model“, „data“ und „processor“.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)