1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Multi-Modal Models with Hugging Face

Connected

cvičení

Zero-shot učení s CLIP

Pomocí zero-shot učení klasifikuješ obrázek z datasetu rajuptvs/ecommerce_products_clip, který obsahuje přibližně 2 000 obrázků produktů spolu s jejich popisky:

Obrázek ženy v šatech

Dataset (dataset), CLIPProcessor (processor) a CLIPModel (model) jsou už načteny, stejně jako seznam kategorií:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Pokyny

100 XP
  • Pomocí processoru předzpracuj categories a obrázek na indexu 999 z datasetu; povol padding.
  • Předej rozbalené inputs do modelu.
  • Vypočítej pravděpodobnosti jednotlivých kategorií pomocí atributu .logits_per_image a metody .softmax().
  • Najdi nejpravděpodobnější kategorii pomocí probs a categories.