Évaluation automatisée de la qualité des sous-titres
Vous avez correctement classé l'image de la robe, mais la description initiale était-elle précise ?
Châle Maa Fab au design tendance et aux couleurs vives pour une touche d'élégance. Tissu extrêmement doux et confortable, avec un superbe motif bateau uni. Robe à encolure évasée, un ajout parfait à votre garde-robe.
Vous allez maintenant utiliser le modèle CLIP pour évaluer quantitativement la précision de cette description à l'aide du score CLIP. La légende (description), l'image (image), la classe ToTensor et la fonction clip_score() provenant de torchmetrics ont été chargées.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Convertissez l'image en un tenseur PyTorch avec des intensités comprises entre 0 et 255.
clip_score()Veuillez utiliser la fonction « Évaluer la qualité » pour évaluer la qualité de la légende en comparantimageetdescriptionavec le modèleopenai/clip-vit-base-patch32.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the image to a PyTorch tensor
image = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")