1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele multimodalne z Hugging Face

Connected

exercițiu

Dostrajanie modelu text-to-speech

W tym ćwiczeniu użyjesz korpusu VCTK, który zawiera około 44 godzin nagrań mowy anglojęzycznych mówców z różnymi akcentami, aby dostroić model text-to-speech do odwzorowywania regionalnych akcentów.

Zbiór danych dataset został już wczytany i przetworzony. Moduł SpeechT5ForTextToSpeech oraz moduły Seq2SeqTrainingArguments i Seq2SeqTrainer są dostępne. Kolator danych (data_collator) został wcześniej zdefiniowany.

Nie wywołuj metody .train() na obiekcie trenera – wywołanie tego kodu w tym środowisku spowoduje przekroczenie limitu czasu.

Instrucțiuni

100 XP
  • Wczytaj wstępnie wytrenowany model microsoft/speecht5_tts za pomocą klasy SpeechT5ForTextToSpeech.
  • Utwórz instancję klasy Seq2SeqTrainingArguments z następującymi parametrami: gradient_accumulation_steps ustawionym na 8, learning_rate ustawionym na 0.00001, warmup_steps ustawionym na 500 oraz max_steps ustawionym na 4000.
  • Skonfiguruj trenera, przekazując nowe argumenty treningowe oraz dostarczony model, dane i processor.