ComeçarComece de graça

VQA com Transformadores de Linguagem Visual (ViLTs)

É hora de experimentar a geração multimodal, começando com a Resposta Visual a Perguntas (VQA). Você vai usar o modelo “ dandelin/vilt-b32-finetuned-vqa ” para descobrir a cor do semáforo na imagem abaixo:

Foto de um semáforo com a luz vermelha

O pré-processador (processor), o modelo (model) e a imagem (image) já foram carregados pra você.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Faça o pré-processamento do prompt “ text ” e “ image ”.
  • Gera os tokens de resposta a partir do modelo e atribui-os a um outputs.
  • Encontre o ID da resposta com maior confiança usando os logits de saída.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

text = "What color is the traffic light?"

# Preprocess the text prompt and image
encoding = ____(____, ____, return_tensors="pt")

# Generate the answer tokens
outputs = ____

# Find the ID of the answer with the highest confidence
idx = outputs.logits.____
print("Predicted answer:", model.config.id2label[idx])
Editar e executar o código