ComeçarComece de graça

Avaliação automatizada da qualidade de legendas

Você classificou corretamente a imagem do vestido, mas quão boa era a descrição original?

Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.

Agora você vai usar o modelo CLIP para fazer uma avaliação quantitativa de quão precisa é essa descrição usando o CLIP score. A legenda (description), a imagem (image), a classe ToTensor e a função clip_score() de torchmetrics já foram carregadas.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Converta a imagem em um tensor do PyTorch com intensidades variando de 0 a 255.
  • Use a função clip_score() para avaliar a qualidade da legenda, comparando image_tensor e description com o modelo openai/clip-vit-base-patch32.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Editar e executar o código