1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Analýza sentimentu ve videu pomocí CLIP a CLAP

Teď provedeš analýzu emocí v reklamě, kterou jsi dříve připravil/a, pomocí CLIP/CLAP. Pro multi-modální klasifikaci emocí zkombinuješ předpovědi těchto modelů pomocí průměru (technika známá jako late fusion).

Video (video) a odpovídající zvukový vzorek (audio_sample), které jsi vytvořil/a dříve, jsou stále k dispozici:

Frames from the Bounce TV commercial

Seznam emocí je načten jako emotions.

Pokyny

100 XP
  • Vytvoř pipeline pro klasifikaci zvuku (zero-shot-audio-classification) s použitím modelu laion/clap-htsat-unfused.
  • Vytvoř pipeline pro klasifikaci obrázků (zero-shot-image-classification) s použitím modelu openai/clip-vit-base-patch32 (menší varianta modelu použitého pro video).
  • Pomocí pipeline pro klasifikaci obrázků vygeneruj předpovědi pro každý snímek ve videu.
  • Pomocí pipeline pro klasifikaci zvuku vygeneruj předpovědi pro audio_sample.