Ein Text-zu-Sprache-Modell optimieren
Du wirst mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachdaten von Englischsprechern mit verschiedenen Akzenten enthält, um ein Text-to-Speech-Modell zu optimieren, das regionale Akzente nachahmt.
Die Datei „ dataset “ wurde schon geladen und vorbereitet, und das Modul „ SpeechT5ForTextToSpeech “ wurde geladen, genauso wie die Module „ Seq2SeqTrainingArguments “ und „ Seq2SeqTrainer “. Ein Datenkollator (data_collator) ist schon fertig eingerichtet.
Ruf die Methode .train() auf die Trainerkonfiguration, da dieser Code in dieser Umgebung eine Zeitüberschreitung verursacht.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Lade das vorab trainierte Modell „
microsoft/speecht5_tts” über „SpeechT5ForTextToSpeech” (Modell- und Daten-API) und speichere es in „/ - Mach eine Instanz von „
Seq2SeqTrainingArguments” mit: „gradient_accumulation_steps” auf „8”, „learning_rate” auf „0.00001”, „warmup_steps” auf „500” und „max_steps” auf „4000”. - Konfigurier den Trainer mit den neuen Trainingsargumenten und den angegebenen Dateien „
model“, „data“ und „processor“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the text-to-speech pretrained model
model = ____.____(____)
# Configure the required training arguments
training_args = ____(output_dir="speecht5_finetuned_vctk_test",
gradient_accumulation_steps=____, learning_rate=____, warmup_steps=____, max_steps=4000, label_names=["labels"],
push_to_hub=False)
# Configure the trainer
trainer = ____(args=training_args, model=model, data_collator=data_collator,
train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor)