Modèles de langage visuel incitatif (VLMs)
Au cours des deux exercices suivants, vous utiliserez un modèle multimodal pour analyser le sentiment d'un article d'actualité et de l'image qui l'accompagne, à partir du jeu de données BBC News disponible sur Hugging Face :
Pour commencer, vous allez préparer un modèle de conversation pour le modèle qui inclut à la fois l'image et l'article d'actualité. L'ensemble de données (dataset
) et l'image principale (image
) ont été chargés.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le contenu de l'article d'actualité (
content
) à partir du point de données situé à l'index6
dans le fichierdataset
. - Veuillez compléter la requête textuelle afin d'insérer «
content
» dans «text_query
» en utilisant des chaînes f. - Ajoutez les éléments «
image
» et «text_query
» au modèle de chat, en spécifiant le type de contenu de «text_query
» comme «"text"
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the news article content from datapoint 6
content = ____
# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."
# Add the text query dictionary to the chat template
chat_template = [
{
"role": "user",
"content": [
{
"type": "image",
"image": ____,
},
____
],
}
]