CommencerCommencer gratuitement

Traitement préalable des images

Dans cet exercice, vous utiliserez l'ensemble de données flickr, qui contient 30 000 images et leurs légendes, pour effectuer des opérations de prétraitement sur les images. Ce prétraitement est nécessaire pour rendre les données d'image adaptées à l'inférence avec les tâches du modèle Hugging Face, telles que la génération de texte à partir d'images. Dans ce cas, vous allez générer une légende textuelle pour cette image :

Photo de deux personnes, dont une joue de la guitare

L'ensemble de données (dataset) a été chargé avec la structure suivante :

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Le modèle de légende d'image (model) a été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez l'image à partir de l'élément situé à l'index 5 de l'ensemble de données.
  • Chargez le processeur d'images (BlipProcessor) du modèle pré-entraîné : Salesforce/blip-image-captioning-base.
  • Exécutez le processeur sur image, en veillant à préciser que les tenseurs PyTorch (pt) sont requis.
  • Veuillez utiliser la méthode « .generate() » pour créer une légende à l'aide de l'model.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the image from index 5 of the dataset
image = dataset[5]["____"]

# Load the image processor of the pretrained model
processor = ____.____("Salesforce/blip-image-captioning-base")

# Preprocess the image
inputs = ____(images=____, return_tensors="pt")

# Generate a caption using the model
output = ____(**inputs)
print(f'Generated caption: {processor.decode(output[0])}')
print(f'Original caption: {dataset[5]["caption"][0]}')
Modifier et exécuter le code