LoslegenKostenlos loslegen

Automatisierte Qualitätsbewertung von Bildunterschriften

Du hast das Bild des Kleids korrekt klassifiziert, aber wie gut war die ursprüngliche Beschreibung?

Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.

Jetzt verwendest du das CLIP-Modell, um mithilfe des CLIP-Scores quantitativ zu beurteilen, wie treffend diese Beschreibung ist. Die Bildunterschrift (description), das Bild (image), die Klasse ToTensor und die Funktion clip_score() aus torchmetrics wurden geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Wandle das Bild in einen PyTorch-Tensor mit Intensitäten im Bereich 0–255 um.
  • Verwende die Funktion clip_score(), um die Qualität der Bildunterschrift zu bewerten, indem du image_tensor und description mit dem Modell openai/clip-vit-base-patch32 vergleichst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Code bearbeiten und ausführen