Avaliação automática da qualidade das legendas
Você classificou corretamente a imagem do vestido, mas a descrição original estava boa?
Envoltório Maa Fab com um vestido de design moderno e cores vibrantes para um toque elegante de tecido completamente macio e confortável, com um design incrível de barco sólido. Vestido com decote em V para dar um toque especial ao seu guarda-roupa.
Agora você vai usar o modelo CLIP para fazer uma afirmação quantitativa sobre a precisão dessa descrição usando a pontuação CLIP. A legenda (description), a imagem (image), a classe ToTensor e a função clip_score() do site torchmetrics foram carregadas.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Converta a imagem em um tensor PyTorch com intensidades que vão de 0 a 255.
- Use a função “
clip_score()” (Avaliação automática) para ver se a legenda tá boa comparandoimageedescriptioncom o modeloopenai/clip-vit-base-patch32.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert the image to a PyTorch tensor
image = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")