1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Předzpracování audia

V tomto cvičení se naučíš, jak upravit vzorkovací frekvenci zvukových dat a jak použít automatický předzpracovatel. Budeme pracovat s datasetem VCTK Corpus, který obsahuje přibližně 44 hodin řeči od 110 anglicky mluvících osob s různými přízvuky.

Dataset dataset je již načtený.

Pokyny

100 XP
  • Převzorkuj audio v datasetu na frekvenci 16 000 Hz pomocí metody .cast_column().
  • Načti audio procesor s využitím předtrénovaného modelu openai/whisper-small.
  • Předzpracuj zvuková data prvního záznamu – zadej stejnou vzorkovací frekvenci a nastav padding=True.