1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Automatyczne rozpoznawanie mowy

W tym ćwiczeniu wykorzystasz sztuczną inteligencję do automatycznej transkrypcji mowy na tekst! Pracujesz z korpusem VCTK, który zawiera około 44 godzin nagrań mowy anglojęzycznych osób z różnymi akcentami. Użyjesz modelu Whisper tiny od OpenAI – zawiera on zaledwie 37 mln parametrów – aby wstępnie przetworzyć dane audio z VCTK i wygenerować odpowiadający im tekst.

Preprocesor audio (processor) został już załadowany, podobnie jak moduł WhisperForConditionalGeneration. Przykładowy punkt danych audio (sample) jest również gotowy do użycia.

Instrukcje

100 XP
  • Załaduj wstępnie wytrenowany model WhisperForConditionalGeneration, korzystając z checkpointu openai/whisper-tiny.
  • Wstępnie przetwórz punkt danych sample, używając wymaganej częstotliwości próbkowania 16000.
  • Wygeneruj tokeny z modelu, używając atrybutu .input_features wstępnie przetworzonych danych wejściowych.