1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Hugging Face로 배우는 멀티모달 모델

Connected

अभ्यास

Text-to-Speech 모델 미세 조정

VCTK Corpus은 다양한 억양을 가진 영어 화자의 약 44시간 분량 음성 데이터를 포함합니다. 이 데이터로 지역 억양을 재현하도록 text-to-speech 모델을 미세 조정해 보세요.

dataset은 이미 로드 및 전처리되었고, SpeechT5ForTextToSpeech 모듈과 Seq2SeqTrainingArguments, Seq2SeqTrainer 모듈도 로드되어 있어요. 데이터 콜레이터(data_collator)도 미리 정의되어 있습니다.

이 환경에서는 코드가 시간 초과되므로 트레이너 설정에서 .train() 메서드를 호출하지 말아 주세요.

निर्देश

100 XP
  • SpeechT5ForTextToSpeech를 사용해 microsoft/speecht5_tts 사전 학습 모델을 로드하세요.
  • 다음과 같이 Seq2SeqTrainingArguments 인스턴스를 생성하세요: gradient_accumulation_steps는 8, learning_rate는 0.00001, warmup_steps는 500, max_steps는 4000으로 설정합니다.
  • 새로운 학습 인자를 사용해 트레이너를 구성하고, 제공된 model, 데이터, processor를 연결하세요.