CommencerCommencer gratuitement

VQA avec des transformateurs de langage visuel (ViLT)

Il est temps de s'essayer à la génération multimodale, en commençant par le Visual Question-Answering (VQA). Vous utiliserez le modèle de l'dandelin/vilt-b32-finetuned-vqa e pour déterminer la couleur du feu de signalisation dans l'image suivante :

Image d'un feu de signalisation rouge

Le préprocesseur (processor), le modèle (model) et l'image (image) ont été chargés pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Pré-traitez l'invite « text » (Veuillez saisir le code de vérification) et « image »
  • Générez les jetons de réponse à partir du modèle et attribuez-les à l'outputs.
  • Veuillez identifier la réponse présentant le niveau de confiance le plus élevé à l'aide des logits de sortie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Modifier et exécuter le code