ComenzarEmpieza gratis

Evaluación del rendimiento de la generación de vídeos

Puedes evaluar el rendimiento de tus procesos de generación de vídeos utilizando un modelo CLIP multimodal, que comprueba la similitud entre cada fotograma del vídeo y la indicación. Lo utilizarás para evaluar en qué medida el vídeo que has creado en el ejercicio anterior se ajusta a la consigna.

La función « load_video() » se ha importado de diffusers.utils para ti. El módulo clip_score también se ha importado desde torchmetrics.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Configura una función de puntuación CLIP llamada « clip_score_fn() » a partir de la métrica « clip_score() ».
  • Calcula la puntuación CLIP entre cada tensor de fotograma en frame_tensors y prompt.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")

frame_tensors = []
for frame in frames:
    frame = np.array(frame)
    frame_int = (frame * 255).astype("uint8")
    frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
    frame_tensors.append(frame_tensor)

# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()

avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")
Editar y ejecutar código