IniziaInizia gratis

VQA con i Vision Language Transformers (ViLT)

È il momento di provare la generazione multimodale, partendo dal Visual Question-Answering (VQA). Userai il modello dandelin/vilt-b32-finetuned-vqa per determinare il colore del semaforo nella seguente immagine:

Picture of a traffic light showing red

Il preprocessore (processor), il modello (model) e l'immagine (image) sono già stati caricati per te.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Preprocessa il prompt text e l'image.
  • Genera i token della risposta dal modello e assegnali a outputs.
  • Trova l'ID della risposta con la confidenza più alta usando i logits in output.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Modifica ed esegui il codice