exercițiu

VQA cu Vision Language Transformers (ViLT-uri)

E momentul să explorezi generarea multi-modală, începând cu răspunsul vizual la întrebări (VQA). Vei folosi modelul dandelin/vilt-b32-finetuned-vqa pentru a determina culoarea semaforului din imaginea de mai jos:

Picture of a traffic light showing red

Preprocesoarul (processor), modelul (model) și imaginea (image) au fost deja încărcate pentru tine.

Instrucțiuni

100 XP

Preprocesează promptul text și image.
Generează token-urile de răspuns din model și atribuie rezultatul variabilei outputs.
Găsește ID-ul răspunsului cu cea mai mare încredere folosind logit-urile din output.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu