CommencerCommencer gratuitement

VQA avec des Vision Language Transformers (ViLT)

À vous de jouer avec la génération multimodale, en commençant par le Visual Question-Answering (VQA). Vous allez utiliser le modèle dandelin/vilt-b32-finetuned-vqa pour déterminer la couleur du feu tricolore dans l’image suivante :

Picture of a traffic light showing red

Le préprocesseur (processor), le modèle (model) et l’image (image) ont été chargés pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Prétraitez l’invite text et l’image.
  • Générez les jetons de réponse avec le modèle et affectez-les à outputs.
  • Trouvez l’identifiant de la réponse la plus probable en utilisant les logits de sortie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Modifier et exécuter le code