VQA com Transformadores de Linguagem Visual (ViLTs)
É hora de experimentar a geração multimodal, começando com a Resposta Visual a Perguntas (VQA). Você vai usar o modelo “ dandelin/vilt-b32-finetuned-vqa ” para descobrir a cor do semáforo na imagem abaixo:

O pré-processador (processor), o modelo (model) e a imagem (image) já foram carregados pra você.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Faça o pré-processamento do prompt “
text” e “image”. - Gera os tokens de resposta a partir do modelo e atribui-os a um
outputs. - Encontre o ID da resposta com maior confiança usando os logits de saída.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
text = "What color is the traffic light?"
# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")
# Generate the answer tokens
outputs = ____
# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])