ComeçarComece de graça

Avaliação automática da qualidade das legendas

Você classificou corretamente a imagem do vestido, mas a descrição original estava boa?

Envoltório Maa Fab com um vestido de design moderno e cores vibrantes para um toque elegante de tecido completamente macio e confortável, com um design incrível de barco sólido. Vestido com decote em V para dar um toque especial ao seu guarda-roupa.

Agora você vai usar o modelo CLIP para fazer uma afirmação quantitativa sobre a precisão dessa descrição usando a pontuação CLIP. A legenda (description), a imagem (image), a classe ToTensor e a função clip_score() do site torchmetrics foram carregadas.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Converta a imagem em um tensor PyTorch com intensidades que vão de 0 a 255.
  • Use a função “ clip_score() ” (Avaliação automática) para ver se a legenda tá boa comparando image e description com o modelo openai/clip-vit-base-patch32.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Convert the image to a PyTorch tensor
image = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Editar e executar o código