Text-to-Speech 모델 미세 조정

VCTK Corpus은 다양한 억양을 가진 영어 화자의 약 44시간 분량 음성 데이터를 포함합니다. 이 데이터로 지역 억양을 재현하도록 text-to-speech 모델을 미세 조정해 보세요.

dataset은 이미 로드 및 전처리되었고, SpeechT5ForTextToSpeech 모듈과 Seq2SeqTrainingArguments, Seq2SeqTrainer 모듈도 로드되어 있어요. 데이터 콜레이터(data_collator)도 미리 정의되어 있습니다.

이 환경에서는 코드가 시간 초과되므로 트레이너 설정에서 .train() 메서드를 호출하지 말아 주세요.