Valutazione automatica della qualità delle didascalie
Hai classificato correttamente l'immagine dell'abito, ma quanto era buona la descrizione originale?
Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.
Ora userai il modello CLIP per dare una misura quantitativa dell'accuratezza di questa descrizione usando il punteggio CLIP. La didascalia (description), l'immagine (image), la classe ToTensor e la funzione clip_score() di torchmetrics sono già state caricate.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Converti l'immagine in un tensore PyTorch con intensità comprese tra 0 e 255.
- Usa la funzione
clip_score()per valutare la qualità della didascalia confrontandoimage_tensoredescriptioncon il modelloopenai/clip-vit-base-patch32.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")