CommencerCommencer gratuitement

Classification multimodale des sentiments avec Qwen

Maintenant, intégrez votre invite au modèle de langage visuel Qwen2 ! Vous utiliserez le modèle d'invite que vous avez créé précédemment, disponible à l'adresse chat_template.

Voyons ce que le modèle pense de cet article ! Le modèle (vl_model) et le processeur (vl_model_processor) ont été chargés pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Veuillez utiliser le processeur pour prétraiter l'chat_template.
  • Veuillez utiliser le modèle pour générer les identifiants de sortie, en veillant à limiter les nouveaux jetons à 500.
  • Décodez les identifiants générés tronqués, en ignorant les jetons spéciaux.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)

# Use the processor to preprocess the text and image
inputs = ____(
    text=[____],
    images=____,
    padding=True,
    return_tensors="pt",
)

# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

# Decode the generated IDs
output_text = vl_model_processor.____(
    generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])
Modifier et exécuter le code