exercițiu

VQA s Vision Language Transformers (ViLTs)

Čas vyzkoušet si multimodální generování – začneme vizuálním zodpovídáním otázek (VQA). Pomocí modelu dandelin/vilt-b32-finetuned-vqa zjistíš, jakou barvu má semafor na následujícím obrázku:

Picture of a traffic light showing red

Preprocesor (processor), model (model) a obrázek (image) jsou již načteny.

Instrucțiuni

100 XP

Předzpracuj textový prompt text a obrázek image.
Vygeneruj výstupní tokeny odpovědi pomocí modelu a ulož je do outputs.
Najdi ID odpovědi s nejvyšší mírou jistoty pomocí výstupních logitů.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu