Automatyczne rozpoznawanie mowy

W tym ćwiczeniu wykorzystasz sztuczną inteligencję do automatycznej transkrypcji mowy na tekst! Pracujesz z korpusem VCTK, który zawiera około 44 godzin nagrań mowy anglojęzycznych osób z różnymi akcentami. Użyjesz modelu Whisper tiny od OpenAI – zawiera on zaledwie 37 mln parametrów – aby wstępnie przetworzyć dane audio z VCTK i wygenerować odpowiadający im tekst.

Preprocesor audio (processor) został już załadowany, podobnie jak moduł WhisperForConditionalGeneration. Przykładowy punkt danych audio (sample) jest również gotowy do użycia.

Załaduj wstępnie wytrenowany model WhisperForConditionalGeneration, korzystając z checkpointu openai/whisper-tiny.
Wstępnie przetwórz punkt danych sample, używając wymaganej częstotliwości próbkowania 16000.
Wygeneruj tokeny z modelu, używając atrybutu .input_features wstępnie przetworzonych danych wejściowych.

ćwiczenie

Automatyczne rozpoznawanie mowy

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie