Dostrajanie modelu text-to-speech

W tym ćwiczeniu użyjesz korpusu VCTK, który zawiera około 44 godzin nagrań mowy anglojęzycznych mówców z różnymi akcentami, aby dostroić model text-to-speech do odwzorowywania regionalnych akcentów.

Zbiór danych dataset został już wczytany i przetworzony. Moduł SpeechT5ForTextToSpeech oraz moduły Seq2SeqTrainingArguments i Seq2SeqTrainer są dostępne. Kolator danych (data_collator) został wcześniej zdefiniowany.

Nie wywołuj metody .train() na obiekcie trenera – wywołanie tego kodu w tym środowisku spowoduje przekroczenie limitu czasu.

Wczytaj wstępnie wytrenowany model microsoft/speecht5_tts za pomocą klasy SpeechT5ForTextToSpeech.
Utwórz instancję klasy Seq2SeqTrainingArguments z następującymi parametrami: gradient_accumulation_steps ustawionym na 8, learning_rate ustawionym na 0.00001, warmup_steps ustawionym na 500 oraz max_steps ustawionym na 4000.
Skonfiguruj trenera, przekazując nowe argumenty treningowe oraz dostarczony model, dane i processor.

exercițiu

Dostrajanie modelu text-to-speech

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu