Avaliação automatizada da qualidade de legendas
Você classificou corretamente a imagem do vestido, mas quão boa era a descrição original?
Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.
Agora você vai usar o modelo CLIP para fazer uma avaliação quantitativa de quão precisa é essa descrição usando o CLIP score. A legenda (description), a imagem (image), a classe ToTensor e a função clip_score() de torchmetrics já foram carregadas.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Converta a imagem em um tensor do PyTorch com intensidades variando de 0 a 255.
- Use a função
clip_score()para avaliar a qualidade da legenda, comparandoimage_tensoredescriptioncom o modeloopenai/clip-vit-base-patch32.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")