CommencerCommencer gratuitement

Évaluer les performances de génération vidéo

Vous pouvez évaluer les performances de vos pipelines de génération vidéo à l’aide d’un modèle CLIP multimodal, qui mesure la similarité entre chaque image de la vidéo et le prompt. Vous l’utiliserez pour vérifier dans quelle mesure la vidéo générée à l’exercice précédent correspond au prompt.

La fonction load_video() a été importée depuis diffusers.utils pour vous. Le module clip_score a également été importé depuis torchmetrics.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Créez une fonction de scoring CLIP appelée clip_score_fn() à partir de la métrique clip_score().
  • Calculez le score CLIP entre chaque tenseur d’image dans frame_tensors et prompt.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")

frame_tensors = []
for frame in frames:
    frame = np.array(frame)
    frame_int = (frame * 255).astype("uint8")
    frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
    frame_tensors.append(frame_tensor)

# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()

avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")
Modifier et exécuter le code