1. 学ぶ
  2. /
  3. コース
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

演習

Vision Language Transformer (ViLT) による VQA

マルチモーダル生成に挑戦しましょう。まずは Visual Question-Answering (VQA) です。dandelin/vilt-b32-finetuned-vqa モデルを使って、次の画像に写っている信号機の色を判定します。

Picture of a traffic light showing red

前処理器(processor)、モデル(model)、画像(image)は読み込まれています。

指示

100 XP
  • text のプロンプトと image を前処理します。
  • モデルから回答トークンを生成して outputs に代入します。
  • 出力の logits を使って、最も確信度の高い回答の ID を求めます。