1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

VQA cu Vision Language Transformers (ViLT-uri)

E momentul să explorezi generarea multi-modală, începând cu răspunsul vizual la întrebări (VQA). Vei folosi modelul dandelin/vilt-b32-finetuned-vqa pentru a determina culoarea semaforului din imaginea de mai jos:

Picture of a traffic light showing red

Preprocesoarul (processor), modelul (model) și imaginea (image) au fost deja încărcate pentru tine.

Instrucțiuni

100 XP
  • Preprocesează promptul text și image.
  • Generează token-urile de răspuns din model și atribuie rezultatul variabilei outputs.
  • Găsește ID-ul răspunsului cu cea mai mare încredere folosind logit-urile din output.