Automatisierte Qualitätsbewertung von Bildunterschriften
Du hast das Bild des Kleids korrekt klassifiziert, aber wie gut war die ursprüngliche Beschreibung?
Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.
Jetzt verwendest du das CLIP-Modell, um mithilfe des CLIP-Scores quantitativ zu beurteilen, wie treffend diese Beschreibung ist. Die Bildunterschrift (description), das Bild (image), die Klasse ToTensor und die Funktion clip_score() aus torchmetrics wurden geladen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Wandle das Bild in einen PyTorch-Tensor mit Intensitäten im Bereich 0–255 um.
- Verwende die Funktion
clip_score(), um die Qualität der Bildunterschrift zu bewerten, indem duimage_tensorunddescriptionmit dem Modellopenai/clip-vit-base-patch32vergleichst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____
# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")
print(f"CLIP score: {score}")