1. Learn
  2. /
  3. Cursuri
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

exercițiu

VQA s Vision Language Transformers (ViLTs)

Čas vyzkoušet si multimodální generování – začneme vizuálním zodpovídáním otázek (VQA). Pomocí modelu dandelin/vilt-b32-finetuned-vqa zjistíš, jakou barvu má semafor na následujícím obrázku:

Picture of a traffic light showing red

Preprocesor (processor), model (model) a obrázek (image) jsou již načteny.

Instrucțiuni

100 XP
  • Předzpracuj textový prompt text a obrázek image.
  • Vygeneruj výstupní tokeny odpovědi pomocí modelu a ulož je do outputs.
  • Najdi ID odpovědi s nejvyšší mírou jistoty pomocí výstupních logitů.