CLIP CLAP으로 비디오 감정 분석

이제 이전에 준비한 광고를 CLIP/CLAP으로 감정 분석해 볼게요. 감정을 멀티모달로 분류하기 위해, 두 모델의 예측값을 평균으로 결합해요(이를 late fusion이라고 합니다).

앞서 만든 비디오(video)와 이에 대응하는 오디오(audio_sample)는 여전히 사용할 수 있어요:

Frames from the Bounce TV commercial

감정 목록은 emotions로 로드되어 있어요.

laion/clap-htsat-unfused 모델을 사용해 zero-shot-audio-classification용 오디오 분류 파이프라인을 만드세요.
openai/clip-vit-base-patch32 모델을 사용해 zero-shot-image-classification용 이미지 분류 파이프라인을 만드세요(영상에서 사용한 모델의 더 작은 변형입니다).
이미지 분류 파이프라인으로 비디오의 각 이미지에 대한 예측을 생성하세요.
오디오 분류 파이프라인으로 audio_sample에 대한 예측을 생성하세요.