VQA con transformadores de lenguaje visual (ViLT)
Es hora de probar la generación multimodal, empezando por la respuesta visual a preguntas (VQA). Utilizarás el modelo « dandelin/vilt-b32-finetuned-vqa » para determinar el color del semáforo de la siguiente imagen:

Se han cargado el preprocesador (processor), el modelo (model) y la imagen (image).
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Preprocesa el mensaje «
text» (Se ha encontrado una regla de seguridad) y «image» (Se ha encontrado una regla de - Genera los tokens de respuesta a partir del modelo y asígnalos a
outputs. - Encuentra el ID de la respuesta con mayor confianza utilizando los logits de salida.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])