1. 学ぶ
  2. /
  3. コース
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

演習

音声のノイズ除去

この演習では、音声に環境ノイズを混ぜた WHAM データセットを使って、別の話者の声で、かつ背景ノイズを取り除いた新しい音声を生成します。

Spectrogram of noisy speech

新しい声の example_speech 配列と speaker_embedding ベクトルはすでに読み込まれています。前処理器(processor)とボコーダ(vocoder)、さらに SpeechT5ForSpeechToSpeech モジュールも利用可能です。プロット用に make_spectrogram() 関数も用意されています。

指示

100 XP
  • microsoft/speecht5_vc チェックポイントを使って、SpeechT5ForSpeechToSpeech の事前学習済みモデルを読み込みます。
  • サンプリングレート 16000 で example_speech を前処理します。
  • .generate_speech() を使ってノイズ除去後の音声を生成します。