1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele multimodalne z Hugging Face

Connected

ćwiczenie

Zero-shot learning z CLIP

Skorzystaj z techniki zero-shot learning, aby sklasyfikować obraz ze zbioru danych rajuptvs/ecommerce_products_clip, zawierającego około 2 tys. zdjęć produktów wraz z opisami:

Obraz kobiety prezentującej sukienkę

Zbiór danych (dataset), CLIPProcessor (processor) i CLIPModel (model) zostały już wczytane, podobnie jak lista kategorii:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Instrukcje

100 XP
  • Użyj processor, aby wstępnie przetworzyć categories i obraz pod indeksem 999 ze zbioru dataset; włącz padding.
  • Przekaż rozpakowane inputs do model.
  • Oblicz prawdopodobieństwa każdej kategorii, używając atrybutu .logits_per_image i metody .softmax().
  • Znajdź najbardziej prawdopodobną kategorię, korzystając z probs i categories.