1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Preprocesarea datelor audio

În acest exercițiu, vei învăța cum să ajustezi rata de eșantionare a datelor audio și cum să folosești un preprocesor automat. Vei lucra cu VCTK Corpus, un set de date care conține aproximativ 44 de ore de vorbire înregistrată de 110 vorbitori de limbă engleză cu accente diferite.

dataset a fost deja încărcat.

Instrucțiuni

100 XP
  • Reeșantionează sunetul la o frecvență de 16.000 Hz în setul de date, folosind metoda .cast_column().
  • Încarcă procesorul audio utilizând modelul preantrenat openai/whisper-small.
  • Preprocesează datele audio ale primului punct de date, specificând aceeași rată de eșantionare și padding=True.