Aan de slagGa gratis aan de slag

VQA met Vision Language Transformers (ViLTs)

Tijd om zelf aan de slag te gaan met multi-modale generatie, te beginnen met Visual Question-Answering (VQA). Je gebruikt het model dandelin/vilt-b32-finetuned-vqa om de kleur van het verkeerslicht in de volgende afbeelding te bepalen:

Picture of a traffic light showing red

De preprocessor (processor), het model (model) en de afbeelding (image) zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Verwerk de text-prompt en image.
  • Genereer de antwoordtokens met het model en sla ze op in outputs.
  • Zoek de ID van het antwoord met de hoogste zekerheid via de output-logits.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Code bewerken en uitvoeren