1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Phân tích cảm xúc video với CLIP CLAP

Giờ bạn sẽ phân tích cảm xúc của mẫu quảng cáo bạn đã chuẩn bị trước đó bằng CLIP/CLAP. Để phân loại cảm xúc theo hướng đa phương thức, bạn sẽ kết hợp dự đoán của các mô hình này bằng cách lấy trung bình (được gọi là late fusion).

Video (video) và âm thanh tương ứng (audio_sample) bạn đã tạo trước đó vẫn còn sẵn:

Frames from the Bounce TV commercial

Một danh sách cảm xúc đã được nạp vào biến emotions.

Hướng dẫn

100 XP
  • Tạo một pipeline phân loại âm thanh cho zero-shot-audio-classification dùng mô hình laion/clap-htsat-unfused.
  • Tạo một pipeline phân loại ảnh cho zero-shot-image-classification dùng mô hình openai/clip-vit-base-patch32 (một biến thể nhỏ hơn so với mô hình dùng trong video).
  • Dùng pipeline phân loại ảnh để tạo dự đoán cho từng ảnh trong video.
  • Dùng pipeline phân loại âm thanh để tạo dự đoán cho audio_sample.