VQA met Vision Language Transformers (ViLTs)
Tijd om zelf aan de slag te gaan met multi-modale generatie, te beginnen met Visual Question-Answering (VQA). Je gebruikt het model dandelin/vilt-b32-finetuned-vqa om de kleur van het verkeerslicht in de volgende afbeelding te bepalen:

De preprocessor (processor), het model (model) en de afbeelding (image) zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Verwerk de
text-prompt enimage. - Genereer de antwoordtokens met het model en sla ze op in
outputs. - Zoek de ID van het antwoord met de hoogste zekerheid via de output-logits.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])