1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Automatické rozpoznávání řeči

V tomto cvičení použiješ AI k automatickému přepisu zvuku na text! Budeš znovu pracovat s datovou sadou VCTK Corpus, která obsahuje přibližně 44 hodin řeči anglických mluvčích s různými přízvuky. Použiješ model Whisper tiny od OpenAI, který má pouhých 37M parametrů – jeho úkolem bude předzpracovat zvuková data z VCTK a vygenerovat odpovídající text.

Audio preprocessor (processor) je již načten, stejně jako modul WhisperForConditionalGeneration. Vzorový zvukový datový bod (sample) je také připraven.

Pokyny

100 XP
  • Načti předtrénovaný model WhisperForConditionalGeneration pomocí checkpointu openai/whisper-tiny.
  • Předzpracuj datový bod sample s požadovanou vzorkovací frekvencí 16000.
  • Vygeneruj tokeny z modelu pomocí atributu .input_features předzpracovaných vstupů.