Évaluation des performances de génération vidéo
Vous pouvez évaluer les performances de vos pipelines de génération vidéo à l'aide d'un modèle CLIP multimodal, qui teste la similitude entre chaque image vidéo et la commande. Vous utiliserez cet outil pour évaluer dans quelle mesure la vidéo que vous avez créée lors de l'exercice précédent correspond à la consigne.
La fonction load_video()
a été importée pour vous depuis diffusers.utils
. Le module clip_score
a également été importé depuis torchmetrics
.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Configurez une fonction de notation CLIP appelée «
clip_score_fn()
» à partir de la métrique «clip_score()
». - Calculez le score CLIP entre chaque tenseur d'image dans
frame_tensors
etprompt
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")
frame_tensors = []
for frame in frames:
frame = np.array(frame)
frame_int = (frame * 255).astype("uint8")
frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
frame_tensors.append(frame_tensor)
# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()
avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")