Vision Language Models (VLMs) anregen
In den nächsten beiden Übungen wirst du ein multimodales Modell verwenden, um die Stimmung eines Nachrichtenartikels und das dazugehörige Titelbild aus dem BBC News-Datensatz auf Hugging Face zu analysieren:

Zuerst machst du eine Chat-Vorlage für das Modell, die sowohl das Bild als auch den Nachrichtenartikel enthält. Der Datensatz (dataset) und das Titelbild (image) wurden geladen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Lade den Inhalt des Nachrichtenartikels (
content) aus dem Datenpunkt unter dem Index6in der Datei „dataset“. - Fertig mach die Textabfrage, um „
content“ mit f-Strings in „text_query“ einzufügen. - Füge die
imageundtext_queryzur Chatvorlage hinzu und gib den Inhaltstyp vontext_queryals"text"an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the news article content from datapoint 6
content = ____
# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."
# Add the text query dictionary to the chat template
chat_template = [
{
"role": "user",
"content": [
{
"type": "image",
"image": ____,
},
____
],
}
]