1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

VQA z użyciem Vision Language Transformers (ViLTs)

Czas wypróbować generowanie multi-modalne – zaczniemy od wizualnego odpowiadania na pytania (VQA). Użyjesz modelu dandelin/vilt-b32-finetuned-vqa, aby określić kolor światła na poniższym zdjęciu:

Picture of a traffic light showing red

Preprocesor (processor), model (model) i obraz (image) zostały już wczytane.

Instrukcje

100 XP
  • Wstępnie przetwórz prompt tekstowy text oraz obraz image.
  • Wygeneruj tokeny odpowiedzi za pomocą modelu i przypisz wynik do outputs.
  • Znajdź identyfikator odpowiedzi o najwyższym poziomie pewności, korzystając z logitów wyjściowych.