자동 음성 인식

이 연습 문제에서는 AI를 사용해 오디오를 자동으로 텍스트로 변환해 보세요! 다시 한 번 VCTK Corpus와 함께 작업합니다. 이 데이터셋에는 다양한 억양의 영어 화자가 발화한 약 44시간 분량의 음성이 들어 있어요. OpenAI의 Whisper tiny 모델(매개변수 3천7백만 개)을 사용해 VCTK 오디오 데이터를 전처리하고, 해당하는 텍스트를 생성합니다.

오디오 전처리기(processor)와 WhisperForConditionalGeneration 모듈은 로드되어 있으며, 샘플 오디오 데이터포인트(sample)도 이미 준비되어 있어요.