ComenzarEmpieza gratis

VQA con transformadores de lenguaje visual (ViLT)

Es hora de probar la generación multimodal, empezando por la respuesta visual a preguntas (VQA). Utilizarás el modelo « dandelin/vilt-b32-finetuned-vqa » para determinar el color del semáforo de la siguiente imagen:

Imagen de un semáforo en rojo

Se han cargado el preprocesador (processor), el modelo (model) y la imagen (image).

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Preprocesa el mensaje « text » (Se ha encontrado una regla de seguridad) y « image » (Se ha encontrado una regla de
  • Genera los tokens de respuesta a partir del modelo y asígnalos a outputs.
  • Encuentra el ID de la respuesta con mayor confianza utilizando los logits de salida.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Editar y ejecutar código