1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Analiza sentimentelor din video cu CLIP și CLAP

Acum vei efectua analiza emoțiilor din reclama pregătită anterior, folosind CLIP/CLAP. Pentru a realiza o clasificare multi-modală a emoțiilor, vei combina predicțiile acestor modele prin medie (tehnică cunoscută sub numele de late fusion).

Videoclipul (video) și audioul corespunzător (audio_sample) create anterior sunt în continuare disponibile:

Frames from the Bounce TV commercial

O listă de emoții a fost încărcată ca emotions.

Instrucțiuni

100 XP
  • Creează un pipeline de clasificare audio pentru zero-shot-audio-classification folosind modelul laion/clap-htsat-unfused.
  • Creează un pipeline de clasificare a imaginilor pentru zero-shot-image-classification folosind modelul openai/clip-vit-base-patch32 (o variantă mai mică față de cea folosită în video).
  • Folosește pipeline-ul de clasificare a imaginilor pentru a genera predicții pentru fiecare imagine din videoclip.
  • Folosește pipeline-ul de clasificare audio pentru a genera predicții pentru audio_sample.