IniziaInizia gratis

Classificazione multimodale del sentiment con Qwen

Ora integra il tuo prompt con il modello Qwen2 Vision Language! Userai il template di prompt che hai creato in precedenza, disponibile come chat_template.

Vediamo cosa pensa il modello di questo articolo! Il modello (vl_model) e il processor (vl_model_processor) sono già stati caricati per te.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il processor per preprocessare chat_template.
  • Usa il modello per generare gli ID di output, assicurandoti di limitare i nuovi token a 500.
  • Decodifica gli ID generati rifilati, saltando i token speciali.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)

# Use the processor to preprocess the text and image
inputs = ____(
    text=[____],
    images=____,
    padding=True,
    return_tensors="pt",
)

# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

# Decode the generated IDs
output_text = vl_model_processor.____(
    generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])
Modifica ed esegui il codice