Classificação multimodal de sentimentos com Qwen
Agora vamos juntar o seu prompt com o Modelo de Linguagem Visual Qwen2! Você vai usar o modelo de prompt que criou anteriormente, disponível em chat_template.
Vamos ver o que a modelo acha deste artigo! O modelo (vl_model) e o processador (vl_model_processor) já foram carregados pra você.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Use o processador para pré-processar
chat_template. - Use o modelo para gerar os IDs de saída, certificando-se de limitar os novos tokens a
500. - Decodifique os IDs gerados e cortados, pulando os tokens especiais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)
# Use the processor to preprocess the text and image
inputs = ____(
text=[____],
images=____,
padding=True,
return_tensors="pt",
)
# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
# Decode the generated IDs
output_text = vl_model_processor.____(
generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])