1. Learn
  2. /
  3. Kurser
  4. /
  5. Modele multimodalne z Hugging Face

Connected

övning

Analiza sentymentu wideo z CLIP i CLAP

Teraz przeprowadzisz analizę emocji w reklamie, którą wcześniej przygotowano, korzystając z modeli CLIP/CLAP. Aby dokonać wielomodalnej klasyfikacji emocji, połączysz predykcje tych modeli za pomocą średniej (znane jako late fusion).

Wideo (video) oraz odpowiadająca mu próbka audio (audio_sample), utworzone wcześniej, są nadal dostępne:

Klatki z reklamy telewizyjnej Bounce

Lista emocji została załadowana jako emotions.

Instruktioner

100 XP
  • Utwórz potok klasyfikatora audio dla zadania zero-shot-audio-classification, używając modelu laion/clap-htsat-unfused.
  • Utwórz potok klasyfikatora obrazów dla zadania zero-shot-image-classification, używając modelu openai/clip-vit-base-patch32 (mniejszy wariant od tego, którego użyto w przypadku wideo).
  • Użyj potoku klasyfikatora obrazów, aby wygenerować predykcje dla każdego obrazu w wideo.
  • Użyj potoku klasyfikatora audio, aby wygenerować predykcje dla próbki audio_sample.