Traitement préalable des images
Dans cet exercice, vous utiliserez l'ensemble de données flickr, qui contient 30 000 images et leurs légendes, pour effectuer des opérations de prétraitement sur les images. Ce prétraitement est nécessaire pour rendre les données d'image adaptées à l'inférence avec les tâches du modèle Hugging Face, telles que la génération de texte à partir d'images. Dans ce cas, vous allez générer une légende textuelle pour cette image :

L'ensemble de données (dataset) a été chargé avec la structure suivante :
Dataset({
features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
num_rows: 10
})
Le modèle de légende d'image (model) a été chargé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez l'image à partir de l'élément situé à l'index
5de l'ensemble de données. - Chargez le processeur d'images (
BlipProcessor) du modèle pré-entraîné :Salesforce/blip-image-captioning-base. - Exécutez le processeur sur
image, en veillant à préciser que les tenseurs PyTorch (pt) sont requis. - Veuillez utiliser la méthode «
.generate()» pour créer une légende à l'aide de l'model.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the image from index 5 of the dataset
image = dataset[5]["____"]
# Load the image processor of the pretrained model
processor = ____.____("Salesforce/blip-image-captioning-base")
# Preprocess the image
inputs = ____(images=____, return_tensors="pt")
# Generate a caption using the model
output = ____(**inputs)
print(f'Generated caption: {processor.decode(output[0])}')
print(f'Original caption: {dataset[5]["caption"][0]}')