1. 学ぶ
  2. /
  3. コース
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

演習

音声埋め込みの作成

オーディオ配列を話者埋め込みにエンコードしましょう。話者埋め込みには、特定の話者に合わせて生成音声をパーソナライズするための情報が含まれており、微調整された音声を生成するうえで不可欠です。

学習済みモデル spkrec-xvect-voxceleb(speaker_model)と VCTK データセット(dataset)は読み込まれています。

指示

100 XP
  • speaker_model を使って waveform から生の埋め込みを計算し、create_speaker_embedding() 関数定義を完成させてください。
  • dataset のインデックス 10 のデータポイントからオーディオ配列を取り出します。
  • create_speaker_embedding() 関数を使って、そのオーディオ配列から話者埋め込みを計算します。