1. Learn
  2. /
  3. Cursuri
  4. /
  5. Modele Multi-Modale cu Hugging Face

Connected

exercițiu

Învățare zero-shot cu CLIP

Vei folosi învățarea zero-shot pentru a clasifica o imagine din setul de date rajuptvs/ecommerce_products_clip, care conține aproximativ 2.000 de imagini de produse împreună cu descrierile asociate:

Image of a woman modeling a dress

Setul de date (dataset), CLIPProcessor (processor) și CLIPModel (model) au fost încărcate pentru tine, împreună cu o listă de categorii:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Instrucțiuni

100 XP
  • Folosește processor pentru a preprocesa categories și imaginea de la indexul 999 din dataset; activează padding-ul.
  • Transmite inputs despachetat către model.
  • Calculează probabilitățile fiecărei categorii folosind atributul .logits_per_image și metoda .softmax().
  • Găsește categoria cea mai probabilă folosind probs și categories.