1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Fine-tuning modelu pro převod textu na řeč

Budeš pracovat s datasetem VCTK Corpus, který obsahuje přibližně 44 hodin řečových dat od anglicky mluvících lidí s různými přízvuky. Cílem je doladit model pro převod textu na řeč tak, aby dokázal napodobovat regionální přízvuky.

Proměnná dataset je již načtená a předzpracovaná. K dispozici máš také modul SpeechT5ForTextToSpeech a moduly Seq2SeqTrainingArguments a Seq2SeqTrainer. Datový kolektor (data_collator) je předem definovaný.

Nevolej prosím metodu .train() na konfiguraci trenéra — v tomto prostředí by kód překročil časový limit.

Pokyny

100 XP
  • Načti předtrénovaný model microsoft/speecht5_tts pomocí SpeechT5ForTextToSpeech.
  • Vytvoř instanci Seq2SeqTrainingArguments s těmito parametry: gradient_accumulation_steps nastav na 8, learning_rate na 0.00001, warmup_steps na 500 a max_steps na 4000.
  • Nakonfiguruj trenéra s novými trénovacími argumenty a zadanými hodnotami model, dat a processor.