VQA avec des transformateurs de langage visuel (ViLT)
Il est temps de s'essayer à la génération multimodale, en commençant par le Visual Question-Answering (VQA). Vous utiliserez le modèle de l'dandelin/vilt-b32-finetuned-vqa
e pour déterminer la couleur du feu de signalisation dans l'image suivante :
Le préprocesseur (processor
), le modèle (model
) et l'image (image
) ont été chargés pour vous.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Pré-traitez l'invite «
text
» (Veuillez saisir le code de vérification) et «image
» - Générez les jetons de réponse à partir du modèle et attribuez-les à l'
outputs
. - Veuillez identifier la réponse présentant le niveau de confiance le plus élevé à l'aide des logits de sortie.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])