CommencerCommencer gratuitement

Évaluation automatisée de la qualité des sous-titres

Vous avez correctement classé l'image de la robe, mais la description initiale était-elle précise ?

Châle Maa Fab au design tendance et aux couleurs vives pour une touche d'élégance. Tissu extrêmement doux et confortable, avec un superbe motif bateau uni. Robe à encolure évasée, un ajout parfait à votre garde-robe.

Vous allez maintenant utiliser le modèle CLIP pour évaluer quantitativement la précision de cette description à l'aide du score CLIP. La légende (description), l'image (image), la classe ToTensor et la fonction clip_score() provenant de torchmetrics ont été chargées.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Convertissez l'image en un tenseur PyTorch avec des intensités comprises entre 0 et 255.
  • clip_score() Veuillez utiliser la fonction « Évaluer la qualité » pour évaluer la qualité de la légende en comparant image et description avec le modèle openai/clip-vit-base-patch32.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert the image to a PyTorch tensor
image = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Modifier et exécuter le code