Classificazione multimodale del sentiment con Qwen
Ora integra il tuo prompt con il modello Qwen2 Vision Language! Userai il template di prompt che hai creato in precedenza, disponibile come chat_template.
Vediamo cosa pensa il modello di questo articolo! Il modello (vl_model) e il processor (vl_model_processor) sono già stati caricati per te.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Usa il processor per preprocessare
chat_template. - Usa il modello per generare gli ID di output, assicurandoti di limitare i nuovi token a
500. - Decodifica gli ID generati rifilati, saltando i token speciali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)
# Use the processor to preprocess the text and image
inputs = ____(
text=[____],
images=____,
padding=True,
return_tensors="pt",
)
# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
# Decode the generated IDs
output_text = vl_model_processor.____(
generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])