Geautomatiseerde kwaliteitsbeoordeling van bijschriften
Je hebt de afbeelding van de jurk correct geclassificeerd, maar hoe goed was de oorspronkelijke beschrijving?
Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.
Je gaat nu het CLIP-model gebruiken om met de CLIP-score kwantitatief te beoordelen hoe accuraat deze beschrijving is. Het bijschrift (description), de afbeelding (image), de klasse ToTensor en de functie clip_score() uit torchmetrics zijn al geladen.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Zet de afbeelding om naar een PyTorch-tensor met intensiteiten van 0–255.
- Gebruik de functie
clip_score()om de kwaliteit van het bijschrift te beoordelen doorimage_tensorendescriptionte vergelijken met het modelopenai/clip-vit-base-patch32.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")