1. 학습
  2. /
  3. 강의
  4. /
  5. Hugging Face로 배우는 멀티모달 모델

Connected

연습 문제

자동 음성 인식

이 연습 문제에서는 AI를 사용해 오디오를 자동으로 텍스트로 변환해 보세요! 다시 한 번 VCTK Corpus와 함께 작업합니다. 이 데이터셋에는 다양한 억양의 영어 화자가 발화한 약 44시간 분량의 음성이 들어 있어요. OpenAI의 Whisper tiny 모델(매개변수 3천7백만 개)을 사용해 VCTK 오디오 데이터를 전처리하고, 해당하는 텍스트를 생성합니다.

오디오 전처리기(processor)와 WhisperForConditionalGeneration 모듈은 로드되어 있으며, 샘플 오디오 데이터포인트(sample)도 이미 준비되어 있어요.

지침

100 XP
  • openai/whisper-tiny 체크포인트로 WhisperForConditionalGeneration 사전 학습 모델을 로드하세요.
  • 필요한 샘플링 레이트 16000으로 sample 데이터포인트를 전처리하세요.
  • 전처리된 입력의 .input_features 속성을 사용해 모델에서 토큰을 생성하세요.