LoslegenKostenlos loslegen

Vision Language Models (VLMs) anregen

In den nächsten beiden Übungen wirst du ein multimodales Modell verwenden, um die Stimmung eines Nachrichtenartikels und das dazugehörige Titelbild aus dem BBC News-Datensatz auf Hugging Face zu analysieren:

BBC News-Datensatzkarte

Zuerst machst du eine Chat-Vorlage für das Modell, die sowohl das Bild als auch den Nachrichtenartikel enthält. Der Datensatz (dataset) und das Titelbild (image) wurden geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Lade den Inhalt des Nachrichtenartikels (content) aus dem Datenpunkt unter dem Index 6 in der Datei „ dataset “.
  • Fertig mach die Textabfrage, um „ content “ mit f-Strings in „ text_query “ einzufügen.
  • Füge die image und text_query zur Chatvorlage hinzu und gib den Inhaltstyp von text_query als "text" an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]
Code bearbeiten und ausführen