1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

テキスト読み上げモデルのファインチューニング

英語話者のさまざまなアクセントで約44時間分の音声データを収録した VCTK Corpus を使い、地域ごとのアクセントを再現できるようにテキスト読み上げモデルをファインチューニングします。

dataset はすでに読み込みと前処理が完了しており、SpeechT5ForTextToSpeech モジュール、Seq2SeqTrainingArguments と Seq2SeqTrainer モジュールも読み込まれています。データコラトラ(data_collator)も事前定義済みです。

この環境では時間切れになるため、トレーナー設定で .train() メソッドを呼び出さないでください。

Instructions

100 XP
  • SpeechT5ForTextToSpeech を使って、事前学習済みモデル microsoft/speecht5_tts を読み込みます。
  • 次の設定で Seq2SeqTrainingArguments のインスタンスを作成します:gradient_accumulation_steps を 8、learning_rate を 0.00001、warmup_steps を 500、max_steps を 4000 に設定します。
  • 新しいトレーニング引数と、提供された model、データ、processor を用いてトレーナーを構成します。