1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Reglajul fin al unui model text-to-speech

Vei lucra cu VCTK Corpus, un set de date care conține aproximativ 44 de ore de înregistrări vocale ale vorbitorilor de engleză cu diverse accente regionale, pentru a realiza reglajul fin al unui model text-to-speech capabil să reproducă aceste accente.

dataset a fost deja încărcat și preprocesat, iar modulul SpeechT5ForTextToSpeech a fost importat, la fel ca Seq2SeqTrainingArguments și Seq2SeqTrainer. Un data collator (data_collator) a fost predefinit.

Te rugăm să nu apelezi metoda .train() pe configurația trainerului, deoarece codul va expira în acest mediu.

Instrucțiuni

100 XP
  • Încarcă modelul preantrenat microsoft/speecht5_tts folosind SpeechT5ForTextToSpeech.
  • Creează o instanță a clasei Seq2SeqTrainingArguments cu: gradient_accumulation_steps setat la 8, learning_rate setat la 0.00001, warmup_steps setat la 500 și max_steps setat la 4000.
  • Configurează trainerul cu noile argumente de antrenare, precum și cu model, datele și processor-ul furnizate.