CommencerCommencez gratuitement

Créer des prompts pour les modèles Vision-Langage (VLM)

Au cours des deux prochains exercices, vous allez utiliser un modèle multi‑modal pour analyser le sentiment d’un article de presse et de l’image associée à son titre, issus du jeu de données BBC News sur Hugging Face :

BBC News dataset card

Pour commencer, vous allez préparer un modèle de conversation (chat template) pour le modèle, incluant à la fois l’image et l’article. Le jeu de données (dataset) et l’image du titre (image) ont été chargés.

Cet exercice fait partie du cours

<cours>Modèles multimodaux avec Hugging Face</cours>
Voir le cours

Instructions de l’exercice

  • Chargez le contenu de l’article (content) depuis le point de données à l’indice 6 dans dataset.
  • Complétez la requête textuelle pour insérer content dans text_query à l’aide de f-strings.
  • Ajoutez image et text_query au modèle de conversation, en indiquant que le type de contenu de text_query est "text".

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]
Modifier et exécuter le code