ćwiczenie

VQA z użyciem Vision Language Transformers (ViLTs)

Czas wypróbować generowanie multi-modalne – zaczniemy od wizualnego odpowiadania na pytania (VQA). Użyjesz modelu dandelin/vilt-b32-finetuned-vqa, aby określić kolor światła na poniższym zdjęciu:

Picture of a traffic light showing red

Preprocesor (processor), model (model) i obraz (image) zostały już wczytane.

Instrukcje

100 XP

Wstępnie przetwórz prompt tekstowy text oraz obraz image.
Wygeneruj tokeny odpowiedzi za pomocą modelu i przypisz wynik do outputs.
Znajdź identyfikator odpowiedzi o najwyższym poziomie pewności, korzystając z logitów wyjściowych.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie