Die Leistung der Videogenerierung checken
Du kannst die Leistung deiner Videogenerierungs-Pipelines mit einem multimodalen CLIP-Modell checken, das die Ähnlichkeit zwischen jedem Videobild und der Eingabe überprüft. Damit kannst du checken, wie gut dein Video aus der letzten Übung zur Aufgabe passt.
Die Funktion „ load_video() “ wurde für dich aus „ diffusers.utils “ importiert. Das Modul „ clip_score “ wurde auch von torchmetrics importiert.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Richte eine CLIP-Bewertungsfunktion namens „
clip_score_fn()” aus der Metrik „clip_score()” ein. - Berechne den CLIP-Score zwischen jedem Frame-Tensor in „
frame_tensors“ und „prompt“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")
frame_tensors = []
for frame in frames:
frame = np.array(frame)
frame_int = (frame * 255).astype("uint8")
frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
frame_tensors.append(frame_tensor)
# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()
avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")