학습

/

강의

/

Hugging Face で学ぶマルチモーダルモデル

Connected

연습 문제

Vision Language Transformer (ViLT) による VQA

マルチモーダル生成に挑戦しましょう。まずは Visual Question-Answering (VQA) です。dandelin/vilt-b32-finetuned-vqa モデルを使って、次の画像に写っている信号機の色を判定します。

Picture of a traffic light showing red

前処理器（processor）、モデル（model）、画像（image）は読み込まれています。

지침

100 XP

text のプロンプトと image を前処理します。
モデルから回答トークンを生成して outputs に代入します。
出力の logits を使って、最も確信度の高い回答の ID を求めます。