1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Ocena jakości generowania wideo

Jakość działania potoków generowania wideo możesz ocenić za pomocą multimodalnego modelu CLIP, który sprawdza podobieństwo między każdą klatką wideo a promptem. Użyjesz tego podejścia, aby sprawdzić, jak dobrze wygenerowane wideo z poprzedniego ćwiczenia odpowiada podanemu promptowi.

Funkcja load_video() została już zaimportowana z diffusers.utils. Moduł clip_score został również zaimportowany z torchmetrics.

Instrukcje

100 XP
  • Skonfiguruj funkcję oceny CLIP o nazwie clip_score_fn() na podstawie metryki clip_score().
  • Oblicz wynik CLIP między każdym tensorem klatki w frame_tensors a prompt.