Multimodale Sentimentklassifizierung mit Qwen

Jetzt kannst du deine Eingabeaufforderung in das Qwen2 Vision Language Model einbauen! Du verwendest die zuvor erstellte Eingabeaufforderungsvorlage, die unter „ chat_template “ verfügbar ist.

Mal sehen, was das Model zu diesem Artikel sagt! Das Modell (vl_model) und der Prozessor (vl_model_processor) sind schon für dich geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Anleitung zur Übung

Verwende den Prozessor, um „ chat_template “ vorzubereiten.
Verwende das Modell, um die Ausgabe-IDs zu generieren, und achte darauf, die neuen Tokens auf „ 500 “ zu beschränken.
Entschlüssele die getrimmten generierten IDs und überspringe dabei spezielle Tokens.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

text = vl_model_processor.apply_chat_template(chat_template, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(chat_template)

# Use the processor to preprocess the text and image
inputs = ____(
    text=[____],
    images=____,
    padding=True,
    return_tensors="pt",
)

# Use the model to generate the output IDs
generated_ids = vl_model.____(**inputs, ____)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]

# Decode the generated IDs
output_text = vl_model_processor.____(
    generated_ids_trimmed, skip_special_tokens=True
)
print(output_text[0])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Schau dich im Hugging Face-Modell-Hub um und verwandle Rohdaten wie Text, Audio und Bilder in KI-freundliche Formate. Lerne, wie du die neuesten und beliebtesten Modelle für Aufgaben wie Textgenerierung findest und die Vorteile vorgefertigter Pipelines nutzt.

Exercise 1: Hugging Face-Modellnavigation Exercise 2: Wie viele Modelle!?Exercise 3: Das beliebteste Text-zu-Bild-Modell finden Exercise 4: Verschiedene Modalitäten vorbereiten Exercise 5: Text-Tokenisierung Exercise 6: Bildvorverarbeitung Exercise 7: Audio-Vorverarbeitung Exercise 8: Pipeline-Aufgaben und Bewertungen Exercise 9: Erstellung von Pipeline-Bildunterschriften Exercise 10: Übergabe von Schlüsselwortargumenten Exercise 11: Modellbewertung anhand eines benutzerdefinierten Datensatzes

Lerne, einzelne Modalitäten mit den neuesten Modellen zu meistern. Tauch ein in die Welt der Computervision für Bildklassifizierung und -segmentierung, probier Sprachsteuerung und Text-zu-Sprache-Synthese aus und lern effektive Feinabstimmungstechniken. Lerne praktische Fähigkeiten mit vorab trainierten Modellen aus der Transformers-Bibliothek von Hugging Face.

Exercise 1: Computer Vision Exercise 2: Bildklassifizierung Exercise 3: Objekterkennung Exercise 4: Bildhintergrund entfernen Exercise 5: Computer-Vision-Modelle optimieren Exercise 6: Lebenslauf optimieren: Datensatz vorbereiten Exercise 7: Lebenslauf optimieren: Modellklassen Exercise 8: Lebenslauf optimieren: Trainer-Einstellungen anpassen Exercise 9: Spracherkennung und Audioerzeugung Exercise 10: Automatische Spracherkennung Exercise 11: Spracheinbettungen erstellen Exercise 12: Audio-Rauschunterdrückung Exercise 13: Text-to-Speech-Modelle optimieren Exercise 14: Ein Text-zu-Sprache-Modell optimieren Exercise 15: Neue Sprache erfinden

Lerne, visuelle, Text- und Audio-Infos zu verbinden, um KI-Anwendungen noch besser zu machen. Lerne Techniken wie CLIP für Zero-Shot-Klassifizierung, baue Sentiment-Analysatoren, die sehen und lesen können, und entwickle Emotionsdetektoren, die Gesichtsausdrücke mit der Stimme kombinieren. Bring deine KI-Modelle über das Denken in einer einzigen Modalität hinaus.

Exercise 1: Bildklassifizierung ohne Trainingsdaten Exercise 2: Zero-Shot-Lernen mit CLIP Exercise 3: Automatische Bewertung der Untertitelqualität Exercise 4: Multimodale Stimmungsanalyse Exercise 5: Vision Language Models (VLMs) anregen Exercise 6: Multimodale Sentimentklassifizierung mit Qwen

Aktuelle Übung

Exercise 7: Video-Klassifizierung ohne Trainingsdaten Exercise 8: Video-Audio-Trennung Exercise 9: Video-Stimmungsanalyse mit CLIP CLAP

Ideen in die Tat umsetzen! Lerne die neuesten KI-Techniken, um mit Textvorlagen visuelle Inhalte zu erstellen und zu bearbeiten. Mach coole Bilder, bearbeite Fotos auf clevere Weise und baue starke Frage-Antwort-Systeme für Bilder und Dokumente auf. Mach deine kreativen Ideen mit multimodaler KI digital wahr.

Exercise 1: Visuelle Frage-Antwort-Beantwortung (VQA)Exercise 2: VQA mit Vision Language Transformers (ViLTs)Exercise 3: Dokument VQA mit LayoutLM Exercise 4: Bildbearbeitung mit Diffusionsmodellen Exercise 5: Individuelle Bildbearbeitung Exercise 6: Bildretusche Exercise 7: Generierung von Video Exercise 8: Mach ein Video!Exercise 9: Die Leistung der Videogenerierung checken Exercise 10: Glückwunsch!