1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Generování nové řeči

Čas dovršit zvládnutí audio modelů z Hugging Face! Použiješ doladěný model k vygenerování nové řeči pro konkrétní hlas. Jako základ pro nové audio si vybereš hlas z datasetu VCTK Corpus.

dataset a model SpeechT5ForTextToSpeech (model) jsou už načtené a k dispozici máš také funkci make_spectogram(), která ti pomůže s vykreslením výsledků.

Pokyny

100 XP
  • Načti ukázkový embedding mluvčího z indexu 5 testovacího datasetu.
  • Vygeneruj řeč ze zpracovaného textu zadáním parametrů inputs, speaker_embedding a vocoder.