LoslegenKostenlos loslegen

VQA mit Vision Language Transformers (ViLTs)

Zeit, mal die multimodale Generierung auszuprobieren, angefangen mit Visual Question-Answering (VQA). Du wirst das Modell „ dandelin/vilt-b32-finetuned-vqa ” verwenden, um die Farbe der Ampel im folgenden Bild zu bestimmen:

Bild einer roten Ampel

Der Präprozessor (processor), das Modell (model) und das Bild (image) wurden für dich geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Verarbeite die Eingabeaufforderungen „ text “ und „ image “ vor.
  • Generier die Antwort-Tokens aus dem Modell und verknüpfe sie mit „ outputs “.
  • Such die ID der Antwort mit der höchsten Zuverlässigkeit mithilfe der Ausgabelogits.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Code bearbeiten und ausführen