1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

新しい音声を生成する

Hugging Face の音声モデルを使いこなす総仕上げです!微調整済みモデルを使って、指定した話者の声で新しい音声を生成します。新しい音声のベースとなる話者は、VCTK Corpus から選びます。

dataset と SpeechT5ForTextToSpeech モデル(model)はすでに読み込まれており、プロット用の make_spectogram() 関数も用意されています。

Instructions

100 XP
  • テスト用 dataset のインデックス 5 から、サンプルの話者埋め込みを読み込みます。
  • 処理済みテキストから音声を生成します。inputs、speaker_embedding、および vocoder を指定してください。