Fine-tuning modelu pro převod textu na řeč

Budeš pracovat s datasetem VCTK Corpus, který obsahuje přibližně 44 hodin řečových dat od anglicky mluvících lidí s různými přízvuky. Cílem je doladit model pro převod textu na řeč tak, aby dokázal napodobovat regionální přízvuky.

Proměnná dataset je již načtená a předzpracovaná. K dispozici máš také modul SpeechT5ForTextToSpeech a moduly Seq2SeqTrainingArguments a Seq2SeqTrainer. Datový kolektor (data_collator) je předem definovaný.

Nevolej prosím metodu .train() na konfiguraci trenéra — v tomto prostředí by kód překročil časový limit.

Načti předtrénovaný model microsoft/speecht5_tts pomocí SpeechT5ForTextToSpeech.
Vytvoř instanci Seq2SeqTrainingArguments s těmito parametry: gradient_accumulation_steps nastav na 8, learning_rate na 0.00001, warmup_steps na 500 a max_steps na 4000.
Nakonfiguruj trenéra s novými trénovacími argumenty a zadanými hodnotami model, dat a processor.

cvičení

Fine-tuning modelu pro převod textu na řeč

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení