1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Recunoaștere automată a vorbirii

În acest exercițiu, folosești AI pentru a transcrie automat audio în text! Vei lucra din nou cu VCTK Corpus, un set de date care include aproximativ 44 de ore de vorbire înregistrată de vorbitori de engleză cu diverse accente. Vei folosi modelul Whisper tiny de la OpenAI, care conține doar 37M de parametri, pentru a preprocesa datele audio VCTK și a genera textul corespunzător.

Preprocesorul audio (processor) a fost deja încărcat, la fel și modulul WhisperForConditionalGeneration. Un eșantion audio (sample) a fost deja încărcat.

Instrucțiuni

100 XP
  • Încarcă modelul preantrenat WhisperForConditionalGeneration folosind checkpoint-ul openai/whisper-tiny.
  • Preprocesează eșantionul sample cu rata de eșantionare necesară de 16000.
  • Generează token-urile din model folosind atributul .input_features al intrărilor preprocesate.