Classification de sentiment multi-modale avec Qwen
Il est temps d’intégrer votre prompt avec le modèle Qwen2 Vision Language Model ! Vous allez utiliser le modèle de prompt créé précédemment, disponible sous le nom chat_template.
Voyons ce que le modèle pense de cet article ! Le modèle (vl_model) et le processeur (vl_model_processor) ont été chargés pour vous.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Utilisez le processeur pour prétraiter
chat_template. - Utilisez le modèle pour générer les IDs de sortie, en limitant le nombre de nouveaux jetons à
500. - Décodez les IDs générés tronqués, en ignorant les jetons spéciaux.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)
# Use the processor to preprocess the text and image
inputs = ____(
text=[____],
images=____,
padding=True,
return_tensors="pt",
)
# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
# Decode the generated IDs
output_text = vl_model_processor.____(
generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])