LoslegenKostenlos loslegen

Automatische Bewertung der Untertitelqualität

Du hast das Bild des Kleides richtig eingeordnet, aber wie gut war die Beschreibung?

Maa Fab Wickelkleid mit trendigem Design und leuchtenden Farben für einen eleganten Touch. Der Stoff ist total weich und bequem und hat ein tolles Design mit festem Ausschnitt. Ein Kleid mit weitem Ausschnitt, das perfekt in deine Garderobe passt.

Jetzt wirst du das CLIP-Modell nutzen, um mit dem CLIP-Score zu sagen, wie genau diese Beschreibung ist. Die Bildunterschrift (description), das Bild (image), die Klasse „ ToTensor “ und die Funktion „ clip_score() “ von torchmetrics wurden geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Wandle das Bild in einen PyTorch-Tensor mit Intensitäten von 0 bis 255 um.
  • Mit der Funktion „ clip_score() “ kannst du die Qualität der Bildunterschrift checken, indem du „ image “ und „ description “ mit dem Modell „ openai/clip-vit-base-patch32 “ vergleichst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Convert the image to a PyTorch tensor
image = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Code bearbeiten und ausführen