Learn

/

Cursuri

/

Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Generarea unui nou discurs

E momentul să îți completezi stăpânirea modelelor audio de la Hugging Face! Vei folosi un model ajustat fin pentru a genera un discurs nou pornind de la o voce dată. Vei alege o voce din VCTK Corpus ca bază pentru noul audio.

dataset-ul și modelul SpeechT5ForTextToSpeech (model) au fost deja încărcate, iar o funcție make_spectogram() a fost pusă la dispoziție pentru a ajuta la reprezentarea grafică.

Instrucțiuni

100 XP

Încarcă un eșantion de încorporare a vorbitorului de la indexul 5 din dataset-ul de testare.
Generează discursul din textul procesat specificând inputs, speaker_embedding și vocoder.