LoslegenKostenlos starten

VQA mit Vision Language Transformers (ViLTs)

Zeit, mal die multimodale Generierung auszuprobieren, angefangen mit Visual Question-Answering (VQA). Du wirst das Modell „ dandelin/vilt-b32-finetuned-vqa ” verwenden, um die Farbe der Ampel im folgenden Bild zu bestimmen:

Bild einer roten Ampel

Der Präprozessor (processor), das Modell (model) und das Bild (image) wurden für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Multimodale Modelle mit Hugging Face</Kurs>
Kurs ansehen

Übungsanweisungen

  • Verarbeite die Eingabeaufforderungen „ text “ und „ image “ vor.
  • Generier die Antwort-Tokens aus dem Modell und verknüpfe sie mit „ outputs “.
  • Such die ID der Antwort mit der höchsten Zuverlässigkeit mithilfe der Ausgabelogits.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Code bearbeiten und ausführen