1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Odšumění audia

V tomto cvičení použiješ data z datasetu WHAM, který kombinuje řeč se šumem pozadí – a z toho vygeneruješ novou řeč v jiném hlase a bez šumu na pozadí!

Spektrogram zašuměné řeči

Pole example_speech a vektor speaker_embedding nového hlasu jsou již načteny. K dispozici máš také předzpracovatel (processor) a vocoder (vocoder) spolu s modulem SpeechT5ForSpeechToSpeech. Pro vykreslení grafu je připravena funkce make_spectrogram().

Pokyny

100 XP
  • Načti přetrénovaný model SpeechT5ForSpeechToSpeech pomocí checkpointu microsoft/speecht5_vc.
  • Předzpracuj example_speech se vzorkovací frekvencí 16000.
  • Vygeneruj odšuměnou řeč pomocí .generate_speech().