CommencerCommencez gratuitement

VQA avec des Vision Language Transformers (ViLT)

À vous de jouer avec la génération multimodale, en commençant par le Visual Question-Answering (VQA). Vous allez utiliser le modèle dandelin/vilt-b32-finetuned-vqa pour déterminer la couleur du feu tricolore dans l’image suivante :

Picture of a traffic light showing red

Le préprocesseur (processor), le modèle (model) et l’image (image) ont été chargés pour vous.

Cet exercice fait partie du cours

<cours>Modèles multimodaux avec Hugging Face</cours>
Voir le cours

Instructions de l’exercice

  • Prétraitez l’invite text et l’image.
  • Générez les jetons de réponse avec le modèle et affectez-les à outputs.
  • Trouvez l’identifiant de la réponse la plus probable en utilisant les logits de sortie.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Modifier et exécuter le code