Automatické rozpoznávání řeči

V tomto cvičení použiješ AI k automatickému přepisu zvuku na text! Budeš znovu pracovat s datovou sadou VCTK Corpus, která obsahuje přibližně 44 hodin řeči anglických mluvčích s různými přízvuky. Použiješ model Whisper tiny od OpenAI, který má pouhých 37M parametrů – jeho úkolem bude předzpracovat zvuková data z VCTK a vygenerovat odpovídající text.

Audio preprocessor (processor) je již načten, stejně jako modul WhisperForConditionalGeneration. Vzorový zvukový datový bod (sample) je také připraven.

Načti předtrénovaný model WhisperForConditionalGeneration pomocí checkpointu openai/whisper-tiny.
Předzpracuj datový bod sample s požadovanou vzorkovací frekvencí 16000.
Vygeneruj tokeny z modelu pomocí atributu .input_features předzpracovaných vstupů.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení