ComeçarComece de graça

Avaliando o desempenho da geração de vídeos

Você pode ver como estão os seus pipelines de geração de vídeo usando um modelo CLIP multimodal, que testa a semelhança entre cada imagem do vídeo e o prompt. Você vai usar isso pra avaliar o quanto o vídeo que você criou no exercício anterior está de acordo com a instrução.

A função “ load_video() ” foi importada de diffusers.utils para você. O módulo clip_score também foi importado de torchmetrics.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Configure uma função de pontuação CLIP chamada “ clip_score_fn() ” a partir da métrica “ clip_score() ”.
  • Calcule a pontuação CLIP entre cada tensor de quadro em frame_tensors e prompt.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Setup CLIP scoring
clip_score_fn = partial(____, model_name_or_path="openai/clip-vit-base-patch32")

frame_tensors = []
for frame in frames:
    frame = np.array(frame)
    frame_int = (frame * 255).astype("uint8")
    frame_tensor = torch.from_numpy(frame_int).permute(2, 0, 1)
    frame_tensors.append(frame_tensor)

# Pass a list of CHW tensors as expected by clip_score
scores = clip_score_fn(____, [____] * len(frame_tensors)).detach().cpu().numpy()

avg_clip_score = round(np.mean(scores), 4)
print(f"Average CLIP score: {avg_clip_score}")
Editar e executar o código