1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Tiền xử lý ảnh

Trong bài tập này, bạn sẽ dùng bộ dữ liệu flickr (30.000 ảnh kèm chú thích) để thực hiện các bước tiền xử lý cho ảnh. Tiền xử lý giúp dữ liệu ảnh phù hợp để suy luận với các tác vụ mô hình trên Hugging Face, chẳng hạn tạo văn bản từ ảnh. Ở đây, bạn sẽ tạo chú thích văn bản cho ảnh sau:

Photo of 2 people with 1 playing the guitar

Bộ dữ liệu (dataset) đã được nạp với cấu trúc sau:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Mô hình tạo chú thích ảnh (model) đã được nạp.

Hướng dẫn

100 XP
  • Tải ảnh từ phần tử ở vị trí chỉ mục 5 của bộ dữ liệu.
  • Tải bộ xử lý ảnh (BlipProcessor) của mô hình đã huấn luyện sẵn: Salesforce/blip-image-captioning-base.
  • Chạy processor trên image, nhớ chỉ định cần PyTorch tensors (pt).
  • Dùng phương thức .generate() để tạo chú thích bằng model.