1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

VQA với Vision Language Transformers (ViLT)

Đến lúc bạn tự tay thử tạo sinh đa phương thức, bắt đầu với Visual Question-Answering (VQA). Bạn sẽ dùng mô hình dandelin/vilt-b32-finetuned-vqa để xác định màu của đèn giao thông trong hình sau:

Picture of a traffic light showing red

Bộ tiền xử lý (processor), mô hình (model), và ảnh (image) đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tiền xử lý text prompt và image.
  • Tạo các token câu trả lời từ mô hình và gán vào outputs.
  • Tìm ID của câu trả lời có độ tin cậy cao nhất bằng các logits đầu ra.