Analiza sentymentu wideo z CLIP i CLAP

Teraz przeprowadzisz analizę emocji w reklamie, którą wcześniej przygotowano, korzystając z modeli CLIP/CLAP. Aby dokonać wielomodalnej klasyfikacji emocji, połączysz predykcje tych modeli za pomocą średniej (znane jako late fusion).

Wideo (video) oraz odpowiadająca mu próbka audio (audio_sample), utworzone wcześniej, są nadal dostępne:

Klatki z reklamy telewizyjnej Bounce

Lista emocji została załadowana jako emotions.

Utwórz potok klasyfikatora audio dla zadania zero-shot-audio-classification, używając modelu laion/clap-htsat-unfused.
Utwórz potok klasyfikatora obrazów dla zadania zero-shot-image-classification, używając modelu openai/clip-vit-base-patch32 (mniejszy wariant od tego, którego użyto w przypadku wideo).
Użyj potoku klasyfikatora obrazów, aby wygenerować predykcje dla każdego obrazu w wideo.
Użyj potoku klasyfikatora audio, aby wygenerować predykcje dla próbki audio_sample.

övning

Analiza sentymentu wideo z CLIP i CLAP

Instruktioner

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning