CLIP でのゼロショット学習

rajuptvs/ecommerce_products_clip データセットから、ゼロショット学習を使って画像を分類します。このデータセットには、商品画像が約2,000枚と、それぞれに対応する説明が含まれています。

Image of a woman modeling a dress

データセット（dataset）、CLIPProcessor（processor）、CLIPModel（model）は読み込まれており、次のカテゴリのリストも用意されています。

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

processor を使って、dataset のインデックス 999 の画像と categories を前処理します。パディングを有効にしてください。
アンパックした inputs を model に渡します。
.logits_per_image 属性と .softmax() メソッドを使って、各カテゴリの確率を計算します。
probs と categories を使って、最も確からしいカテゴリを見つけてください。