학습

/

강의

/

Hugging Face로 배우는 멀티모달 모델

Connected

연습 문제

오디오 전처리

이 연습 문제에서는 오디오 데이터의 샘플링 레이트를 조정하는 방법과 자동 전처리기를 사용하는 방법을 배워요. 작업할 데이터는 VCTK Corpus로, 다양한 억양을 가진 110명의 영어 화자가 발화한 약 44시간 분량의 음성 데이터를 포함하고 있어요.

dataset은 이미 로드되어 있어요.

지침

100 XP

.cast_column() 메서드를 사용해 데이터셋의 오디오를 16,000 Hz로 리샘플링하세요.
사전 학습된 openai/whisper-small 모델을 사용해 오디오 프로세서를 로드하세요.
첫 번째 데이터 포인트의 오디오 데이터를 전처리하되, 동일한 샘플링 레이트를 지정하고 padding=True로 설정하세요.