Vision Language Models (VLMs) anregen
In den nächsten beiden Übungen wirst du ein multimodales Modell verwenden, um die Stimmung eines Nachrichtenartikels und das dazugehörige Titelbild aus dem BBC News-Datensatz auf Hugging Face zu analysieren:

Zuerst machst du eine Chat-Vorlage für das Modell, die sowohl das Bild als auch den Nachrichtenartikel enthält. Der Datensatz (dataset) und das Titelbild (image) wurden geladen.
Diese Übung ist Teil des Kurses
<Kurs>Multimodale Modelle mit Hugging Face</Kurs>Übungsanweisungen
- Lade den Inhalt des Nachrichtenartikels (
content) aus dem Datenpunkt unter dem Index6in der Datei „dataset“. - Fertig mach die Textabfrage, um „
content“ mit f-Strings in „text_query“ einzufügen. - Füge die
imageundtext_queryzur Chatvorlage hinzu und gib den Inhaltstyp vontext_queryals"text"an.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the news article content from datapoint 6
content = ____
# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."
# Add the text query dictionary to the chat template
chat_template = [
{
"role": "user",
"content": [
{
"type": "image",
"image": ____,
},
____
],
}
]