1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Vytváření řečových embeddingů

Čas zakódovat audio pole do speaker embeddingu! Speaker embeddingy obsahují informace o tom, jak přizpůsobit generované audio konkrétnímu mluvčímu, a jsou nezbytné pro generování fine-tunovaného audia.

Předtrénovaný model spkrec-xvect-voxceleb (speaker_model) a dataset VCTK (dataset) jsou již načtené.

Pokyny

100 XP
  • Doplň definici funkce create_speaker_embedding() tak, aby počítala surový embedding z waveform pomocí speaker_model.
  • Extrahuj audio pole z datového bodu na indexu 10 v dataset.
  • Vypočítej speaker embedding z audio pole pomocí funkce create_speaker_embedding().