VQA mit Vision Language Transformers (ViLTs)
Zeit, mal die multimodale Generierung auszuprobieren, angefangen mit Visual Question-Answering (VQA). Du wirst das Modell „ dandelin/vilt-b32-finetuned-vqa ” verwenden, um die Farbe der Ampel im folgenden Bild zu bestimmen:

Der Präprozessor (processor), das Modell (model) und das Bild (image) wurden für dich geladen.
Diese Übung ist Teil des Kurses
<Kurs>Multimodale Modelle mit Hugging Face</Kurs>Übungsanweisungen
- Verarbeite die Eingabeaufforderungen „
text“ und „image“ vor. - Generier die Antwort-Tokens aus dem Modell und verknüpfe sie mit „
outputs“. - Such die ID der Antwort mit der höchsten Zuverlässigkeit mithilfe der Ausgabelogits.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])