LoslegenKostenlos loslegen

Die Leistung der Videogenerierung checken

Du kannst die Leistung deiner Videogenerierungs-Pipelines mit einem multimodalen CLIP-Modell checken, das die Ähnlichkeit zwischen jedem Videobild und der Eingabe überprüft. Damit kannst du checken, wie gut dein Video aus der letzten Übung zur Aufgabe passt.

Die Funktion „ load_video() “ wurde für dich aus „ diffusers.utils “ importiert. Das Modul „ clip_score “ wurde auch von torchmetrics importiert.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Richte eine CLIP-Bewertungsfunktion namens „ clip_score_fn() ” aus der Metrik „ clip_score() ” ein.
  • Berechne den CLIP-Score zwischen jedem Frame-Tensor in „ frame_tensors “ und „ prompt “.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")

frame_tensors = []
for frame in frames:
    frame = np.array(frame)
    frame_int = (frame * 255).astype("uint8")
    frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
    frame_tensors.append(frame_tensor)

# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()

avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")
Code bearbeiten und ausführen