Learn

/

Kurser

/

Hugging Face で学ぶマルチモーダルモデル

Connected

övning

新しい音声を生成する

Hugging Face の音声モデルを使いこなす総仕上げです！微調整済みモデルを使って、指定した話者の声で新しい音声を生成します。新しい音声のベースとなる話者は、VCTK Corpus から選びます。

dataset と SpeechT5ForTextToSpeech モデル（model）はすでに読み込まれており、プロット用の make_spectogram() 関数も用意されています。

Instruktioner

100 XP

テスト用 dataset のインデックス 5 から、サンプルの話者埋め込みを読み込みます。
処理済みテキストから音声を生成します。inputs、speaker_embedding、および vocoder を指定してください。