Évaluation automatisée de la qualité des sous-titres
Vous avez correctement classé l'image de la robe, mais la description initiale était-elle précise ?
Châle Maa Fab au design tendance et aux couleurs vives pour une touche d'élégance. Tissu extrêmement doux et confortable, avec un superbe motif bateau uni. Robe à encolure évasée, un ajout parfait à votre garde-robe.
Vous allez maintenant utiliser le modèle CLIP pour évaluer quantitativement la précision de cette description à l'aide du score CLIP. La légende (description
), l'image (image
), la classe ToTensor
et la fonction clip_score()
provenant de torchmetrics
ont été chargées.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Convertissez l'image en un tenseur PyTorch avec des intensités comprises entre 0 et 255.
clip_score()
Veuillez utiliser la fonction « Évaluer la qualité » pour évaluer la qualité de la légende en comparantimage
etdescription
avec le modèleopenai/clip-vit-base-patch32
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the image to a PyTorch tensor
image = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")