VQA avec des Vision Language Transformers (ViLT)
À vous de jouer avec la génération multimodale, en commençant par le Visual Question-Answering (VQA). Vous allez utiliser le modèle dandelin/vilt-b32-finetuned-vqa pour déterminer la couleur du feu tricolore dans l’image suivante :

Le préprocesseur (processor), le modèle (model) et l’image (image) ont été chargés pour vous.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Prétraitez l’invite
textet l’image. - Générez les jetons de réponse avec le modèle et affectez-les à
outputs. - Trouvez l’identifiant de la réponse la plus probable en utilisant les logits de sortie.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])