ćwiczenie

Odszumianie audio

W tym ćwiczeniu wykorzystasz dane ze zbioru WHAM, który łączy mowę z szumem tła, aby wygenerować nową mowę w innym głosie – z usuniętym szumem tła!

Spektrogram zaszumionej mowy

Tablica example_speech oraz wektor speaker_embedding nowego głosu są już wczytane. Dostępne są również: preprocesor (processor), vocoder (vocoder) oraz moduł SpeechT5ForSpeechToSpeech. Do wizualizacji udostępniono funkcję make_spectrogram().

Instrukcje

100 XP

Wczytaj wstępnie wytrenowany model SpeechT5ForSpeechToSpeech, korzystając z checkpointu microsoft/speecht5_vc.
Wstępnie przetwórz example_speech z częstotliwością próbkowania 16000.
Wygeneruj odszumioną mowę za pomocą metody .generate_speech().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie