ComenzarEmpieza gratis

Clasificación multimodal del sentimiento con Qwen

Ahora vamos a integrar tu comando con el modelo de lenguaje visual Qwen2. Utilizarás la plantilla de indicaciones que creaste anteriormente, disponible en chat_template.

¡Veamos qué opina la modelo sobre este artículo! Se han cargado el modelo (vl_model) y el procesador (vl_model_processor).

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Utiliza el procesador para preprocesar chat_template.
  • Utiliza el modelo para generar los ID de salida, asegurándote de limitar los nuevos tokens a 500.
  • Decodifica los ID generados recortados, omitiendo los tokens especiales.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)

# Use the processor to preprocess the text and image
inputs = ____(
    text=[____],
    images=____,
    padding=True,
    return_tensors="pt",
)

# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

# Decode the generated IDs
output_text = vl_model_processor.____(
    generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])
Editar y ejecutar código