VQA mit Vision Language Transformers (ViLTs)
Zeit, mal die multimodale Generierung auszuprobieren, angefangen mit Visual Question-Answering (VQA). Du wirst das Modell „ dandelin/vilt-b32-finetuned-vqa ” verwenden, um die Farbe der Ampel im folgenden Bild zu bestimmen:

Der Präprozessor (processor), das Modell (model) und das Bild (image) wurden für dich geladen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Verarbeite die Eingabeaufforderungen „
text“ und „image“ vor. - Generier die Antwort-Tokens aus dem Modell und verknüpfe sie mit „
outputs“. - Such die ID der Antwort mit der höchsten Zuverlässigkeit mithilfe der Ausgabelogits.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])