1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Wstępne przetwarzanie dźwięku

W tym ćwiczeniu nauczysz się, jak dostosować częstotliwość próbkowania danych audio, a także jak korzystać z automatycznego preprocesora. Będziesz pracować z VCTK Corpus – zbiorem zawierającym około 44 godzin nagrań mowy 110 anglojęzycznych osób z różnymi akcentami.

Zmienna dataset została już wczytana.

Instrukcje

100 XP
  • Przepróbkuj audio do częstotliwości 16 000 Hz w zbiorze danych, używając metody .cast_column().
  • Wczytaj procesor audio na podstawie wstępnie wytrenowanego modelu openai/whisper-small.
  • Wstępnie przetwórz dane audio pierwszego elementu, podając tę samą częstotliwość próbkowania oraz padding=True.