VQA con i Vision Language Transformers (ViLT)
È il momento di provare la generazione multimodale, partendo dal Visual Question-Answering (VQA). Userai il modello dandelin/vilt-b32-finetuned-vqa per determinare il colore del semaforo nella seguente immagine:

Il preprocessore (processor), il modello (model) e l'immagine (image) sono già stati caricati per te.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Preprocessa il prompt
texte l'image. - Genera i token della risposta dal modello e assegnali a
outputs. - Trova l'ID della risposta con la confidenza più alta usando i logits in output.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])