1. Lära sig
  2. /
  3. Courses
  4. /
  5. Hugging Face로 배우는 멀티모달 모델

Connected

exercise

CLIP CLAP으로 비디오 감정 분석

이제 이전에 준비한 광고를 CLIP/CLAP으로 감정 분석해 볼게요. 감정을 멀티모달로 분류하기 위해, 두 모델의 예측값을 평균으로 결합해요(이를 late fusion이라고 합니다).

앞서 만든 비디오(video)와 이에 대응하는 오디오(audio_sample)는 여전히 사용할 수 있어요:

Frames from the Bounce TV commercial

감정 목록은 emotions로 로드되어 있어요.

Instruktioner

100 XP
  • laion/clap-htsat-unfused 모델을 사용해 zero-shot-audio-classification용 오디오 분류 파이프라인을 만드세요.
  • openai/clip-vit-base-patch32 모델을 사용해 zero-shot-image-classification용 이미지 분류 파이프라인을 만드세요(영상에서 사용한 모델의 더 작은 변형입니다).
  • 이미지 분류 파이프라인으로 비디오의 각 이미지에 대한 예측을 생성하세요.
  • 오디오 분류 파이프라인으로 audio_sample에 대한 예측을 생성하세요.