1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Odszumianie audio

W tym ćwiczeniu wykorzystasz dane ze zbioru WHAM, który łączy mowę z szumem tła, aby wygenerować nową mowę w innym głosie – z usuniętym szumem tła!

Spektrogram zaszumionej mowy

Tablica example_speech oraz wektor speaker_embedding nowego głosu są już wczytane. Dostępne są również: preprocesor (processor), vocoder (vocoder) oraz moduł SpeechT5ForSpeechToSpeech. Do wizualizacji udostępniono funkcję make_spectrogram().

Instrukcje

100 XP
  • Wczytaj wstępnie wytrenowany model SpeechT5ForSpeechToSpeech, korzystając z checkpointu microsoft/speecht5_vc.
  • Wstępnie przetwórz example_speech z częstotliwością próbkowania 16000.
  • Wygeneruj odszumioną mowę za pomocą metody .generate_speech().