1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Học zero-shot với CLIP

Bạn sẽ dùng zero-shot learning để phân loại một ảnh từ bộ dữ liệu rajuptvs/ecommerce_products_clip, bộ này chứa khoảng 2 nghìn ảnh sản phẩm kèm mô tả liên quan:

Image of a woman modeling a dress

Bộ dữ liệu (dataset), CLIPProcessor (processor) và CLIPModel (model) đã được tải sẵn cho bạn, cùng với danh sách hạng mục:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Hướng dẫn

100 XP
  • Dùng processor để tiền xử lý categories và ảnh tại chỉ số 999 của dataset; bật padding.
  • Truyền inputs đã được giải nén vào model.
  • Tính xác suất cho từng hạng mục bằng thuộc tính .logits_per_image và phương thức .softmax().
  • Tìm hạng mục có khả năng cao nhất bằng probs và categories.