1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Evaluarea performanței generării video

Poți evalua performanța pipeline-urilor de generare video folosind un model CLIP multi-modal, care testează similaritatea dintre fiecare cadru al videoclipului și prompt. Vei folosi această metodă pentru a vedea cât de bine se potrivește videoclipul generat în exercițiul anterior cu prompt-ul dat.

Funcția load_video() a fost importată din diffusers.utils. Modulul clip_score a fost, de asemenea, importat din torchmetrics.

Instrucțiuni

100 XP
  • Definește o funcție de scorare CLIP numită clip_score_fn() pornind de la metrica clip_score().
  • Calculează scorul CLIP dintre fiecare tensor de cadru din frame_tensors și prompt.