1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Fine-tune mô hình text-to-speech

Bạn sẽ làm việc với VCTK Corpus, bộ dữ liệu gồm khoảng 44 giờ âm thanh do người nói tiếng Anh với nhiều giọng vùng miền khác nhau, để fine-tune một mô hình text-to-speech nhằm tái tạo các giọng vùng miền.

dataset đã được tải và tiền xử lý, mô-đun SpeechT5ForTextToSpeech đã được tải, cùng với các mô-đun Seq2SeqTrainingArguments và Seq2SeqTrainer. Một data collator (data_collator) đã được định nghĩa sẵn.

Vui lòng không gọi phương thức .train() trên cấu hình trainer, vì đoạn mã này sẽ hết thời gian chạy trong môi trường này.

Hướng dẫn

100 XP
  • Tải mô hình pretrained microsoft/speecht5_tts bằng SpeechT5ForTextToSpeech.
  • Tạo một instance Seq2SeqTrainingArguments với: gradient_accumulation_steps đặt là 8, learning_rate đặt là 0.00001, warmup_steps đặt là 500, và max_steps đặt là 4000.
  • Cấu hình trainer với bộ tham số huấn luyện mới, cùng model, dữ liệu, và processor đã cung cấp.