1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Crearea embedding-urilor vocale

Este momentul să codifici un array audio într-un embedding vocal! Embedding-urile vocale conțin informații despre cum să personalizezi audio-ul generat pentru un anumit vorbitor și sunt esențiale pentru generarea de audio ajustat fin.

Modelul preantrenat spkrec-xvect-voxceleb (speaker_model) și setul de date VCTK (dataset) au fost deja încărcate pentru tine.

Instrucțiuni

100 XP
  • Completează definiția funcției create_speaker_embedding() calculând embedding-ul brut din waveform folosind speaker_model.
  • Extrage array-ul audio din punctul de date de la indexul 10 al setului de date dataset.
  • Calculează un embedding vocal din array-ul audio folosind funcția create_speaker_embedding().