Créer des prompts pour les modèles Vision-Langage (VLM)
Au cours des deux prochains exercices, vous allez utiliser un modèle multi‑modal pour analyser le sentiment d’un article de presse et de l’image associée à son titre, issus du jeu de données BBC News sur Hugging Face :

Pour commencer, vous allez préparer un modèle de conversation (chat template) pour le modèle, incluant à la fois l’image et l’article. Le jeu de données (dataset) et l’image du titre (image) ont été chargés.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le contenu de l’article (
content) depuis le point de données à l’indice6dansdataset. - Complétez la requête textuelle pour insérer
contentdanstext_queryà l’aide de f-strings. - Ajoutez
imageettext_queryau modèle de conversation, en indiquant que le type de contenu detext_queryest"text".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the news article content from datapoint 6
content = ____
# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."
# Add the text query dictionary to the chat template
chat_template = [
{
"role": "user",
"content": [
{
"type": "image",
"image": ____,
},
____
],
}
]