Reglajul fin al unui model text-to-speech

Vei lucra cu VCTK Corpus, un set de date care conține aproximativ 44 de ore de înregistrări vocale ale vorbitorilor de engleză cu diverse accente regionale, pentru a realiza reglajul fin al unui model text-to-speech capabil să reproducă aceste accente.

dataset a fost deja încărcat și preprocesat, iar modulul SpeechT5ForTextToSpeech a fost importat, la fel ca Seq2SeqTrainingArguments și Seq2SeqTrainer. Un data collator (data_collator) a fost predefinit.

Te rugăm să nu apelezi metoda .train() pe configurația trainerului, deoarece codul va expira în acest mediu.

Încarcă modelul preantrenat microsoft/speecht5_tts folosind SpeechT5ForTextToSpeech.
Creează o instanță a clasei Seq2SeqTrainingArguments cu: gradient_accumulation_steps setat la 8, learning_rate setat la 0.00001, warmup_steps setat la 500 și max_steps setat la 4000.
Configurează trainerul cu noile argumente de antrenare, precum și cu model, datele și processor-ul furnizate.

exercițiu

Reglajul fin al unui model text-to-speech

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu