IniziaInizia gratis

Valutazione automatica della qualità delle didascalie

Hai classificato correttamente l'immagine dell'abito, ma quanto era buona la descrizione originale?

Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.

Ora userai il modello CLIP per dare una misura quantitativa dell'accuratezza di questa descrizione usando il punteggio CLIP. La didascalia (description), l'immagine (image), la classe ToTensor e la funzione clip_score() di torchmetrics sono già state caricate.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Converti l'immagine in un tensore PyTorch con intensità comprese tra 0 e 255.
  • Usa la funzione clip_score() per valutare la qualità della didascalia confrontando image_tensor e description con il modello openai/clip-vit-base-patch32.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Modifica ed esegui il codice