Học zero-shot với CLIP

Bạn sẽ dùng zero-shot learning để phân loại một ảnh từ bộ dữ liệu rajuptvs/ecommerce_products_clip, bộ này chứa khoảng 2 nghìn ảnh sản phẩm kèm mô tả liên quan:

Image of a woman modeling a dress

Bộ dữ liệu (dataset), CLIPProcessor (processor) và CLIPModel (model) đã được tải sẵn cho bạn, cùng với danh sách hạng mục:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Dùng processor để tiền xử lý categories và ảnh tại chỉ số 999 của dataset; bật padding.
Truyền inputs đã được giải nén vào model.
Tính xác suất cho từng hạng mục bằng thuộc tính .logits_per_image và phương thức .softmax().
Tìm hạng mục có khả năng cao nhất bằng probs và categories.

Bài tập

Học zero-shot với CLIP

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập