학습

/

강의

/

Hugging Face로 배우는 멀티모달 모델

Connected

연습 문제

새로운 음성 생성하기

이제 Hugging Face 오디오 모델 활용을 마스터해 볼 차례예요! 미세 조정된 모델을 사용해 지정한 목소리로 새로운 음성을 생성해 보겠습니다. 새 오디오의 기준이 될 음성은 VCTK Corpus에서 선택하세요.

dataset과 SpeechT5ForTextToSpeech 모델(model)은 이미 로드되어 있으며, 시각화를 돕기 위한 make_spectogram() 함수도 제공되어 있어요.

지침

100 XP

테스트 dataset의 인덱스 5에서 샘플 화자 임베딩을 로드하세요.
처리된 텍스트로부터 음성을 생성할 때 inputs, speaker_embedding, vocoder를 지정하세요.