CommencerCommencer gratuitement

Apprentissage zero-shot avec CLIP

Vous allez utiliser le zero-shot learning pour classer une image du jeu de données rajuptvs/ecommerce_products_clip, qui contient environ 2 000 images de produits avec leurs descriptions associées :

Image d’une femme portant une robe

Le jeu de données (dataset), le CLIPProcessor (processor) et le CLIPModel (model) ont été chargés pour vous, ainsi qu’une liste de catégories :

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Utilisez le processor pour prétraiter les categories et l’image à l’indice 999 de dataset ; activez le padding.
  • Passez les inputs décompactés au model.
  • Calculez les probabilités de chaque catégorie en utilisant l’attribut .logits_per_image et la méthode .softmax().
  • Trouvez la catégorie la plus probable à l’aide de probs et categories.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Preprocess the categories and image 
inputs = ____(text=____, images=____, return_tensors="pt", padding=____)

# Process the unpacked inputs with the model
outputs = ____

# Calculate the probabilities of each category
probs = outputs.____.____(dim=1)

# Find the most likely category
category = categories[probs.____.item()]
print(f"Predicted category: {category}")
Modifier et exécuter le code