CommencerCommencer gratuitement

Créer des prompts pour les modèles Vision-Langage (VLM)

Au cours des deux prochains exercices, vous allez utiliser un modèle multi‑modal pour analyser le sentiment d’un article de presse et de l’image associée à son titre, issus du jeu de données BBC News sur Hugging Face :

BBC News dataset card

Pour commencer, vous allez préparer un modèle de conversation (chat template) pour le modèle, incluant à la fois l’image et l’article. Le jeu de données (dataset) et l’image du titre (image) ont été chargés.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le contenu de l’article (content) depuis le point de données à l’indice 6 dans dataset.
  • Complétez la requête textuelle pour insérer content dans text_query à l’aide de f-strings.
  • Ajoutez image et text_query au modèle de conversation, en indiquant que le type de contenu de text_query est "text".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]
Modifier et exécuter le code