CommencerCommencer gratuitement

Modèles de langage visuel incitatif (VLMs)

Au cours des deux exercices suivants, vous utiliserez un modèle multimodal pour analyser le sentiment d'un article d'actualité et de l'image qui l'accompagne, à partir du jeu de données BBC News disponible sur Hugging Face :

Fiche de données BBC News

Pour commencer, vous allez préparer un modèle de conversation pour le modèle qui inclut à la fois l'image et l'article d'actualité. L'ensemble de données (dataset) et l'image principale (image) ont été chargés.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le contenu de l'article d'actualité (content) à partir du point de données situé à l'index 6 dans le fichier dataset.
  • Veuillez compléter la requête textuelle afin d'insérer « content » dans « text_query » en utilisant des chaînes f.
  • Ajoutez les éléments « image » et « text_query » au modèle de chat, en spécifiant le type de contenu de « text_query » comme « "text" ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]
Modifier et exécuter le code