1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Gợi ý cho Vision Language Models (VLMs)

Trong hai bài tập tiếp theo, bạn sẽ dùng một mô hình đa phương thức để phân tích cảm xúc của một bài báo và ảnh minh họa tiêu đề tương ứng từ BBC News dataset trên Hugging Face:

BBC News dataset card

Để bắt đầu, bạn sẽ chuẩn bị một mẫu hội thoại cho mô hình bao gồm cả ảnh và bài báo. Dataset (dataset) và ảnh tiêu đề (image) đã được nạp sẵn.

Hướng dẫn

100 XP
  • Tải nội dung bài báo (content) từ điểm dữ liệu ở chỉ số 6 trong dataset.
  • Hoàn thiện truy vấn văn bản để chèn content vào text_query bằng f-strings.
  • Thêm image và text_query vào mẫu hội thoại, trong đó chỉ định kiểu nội dung của text_query là "text".