LoslegenKostenlos loslegen

Multimodale Sentimentklassifizierung mit Qwen

Jetzt kannst du deine Eingabeaufforderung in das Qwen2 Vision Language Model einbauen! Du verwendest die zuvor erstellte Eingabeaufforderungsvorlage, die unter „ chat_template “ verfügbar ist.

Mal sehen, was das Model zu diesem Artikel sagt! Das Modell (vl_model) und der Prozessor (vl_model_processor) sind schon für dich geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Verwende den Prozessor, um „ chat_template “ vorzubereiten.
  • Verwende das Modell, um die Ausgabe-IDs zu generieren, und achte darauf, die neuen Tokens auf „ 500 “ zu beschränken.
  • Entschlüssele die getrimmten generierten IDs und überspringe dabei spezielle Tokens.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)

# Use the processor to preprocess the text and image
inputs = ____(
    text=[____],
    images=____,
    padding=True,
    return_tensors="pt",
)

# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

# Decode the generated IDs
output_text = vl_model_processor.____(
    generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])
Code bearbeiten und ausführen