ComenzarEmpieza gratis

Preprocesamiento de imágenes

En este ejercicio, utilizarás el conjunto de datos flickr, que contiene 30 000 imágenes y sus correspondientes pies de foto, para realizar operaciones de preprocesamiento de imágenes. Este preprocesamiento es necesario para que los datos de la imagen sean adecuados para la inferencia con tareas del modelo Hugging Face, como la generación de texto a partir de imágenes. En este caso, generarás un pie de foto para esta imagen:

Foto de dos personas, una de ellas tocando la guitarra.

El conjunto de datos (dataset) se ha cargado con la siguiente estructura:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Se ha cargado el modelo de subtitulado de imágenes (model).

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Carga la imagen desde el elemento en el índice 5 del conjunto de datos.
  • Carga el procesador de imágenes (BlipProcessor) del modelo preentrenado: Salesforce/blip-image-captioning-base.
  • Ejecuta el procesador en image, asegurándote de especificar que se requieren tensores PyTorch (pt).
  • Utiliza el método « .generate() » para crear un título utilizando el « model ».

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the image from index 5 of the dataset
image = dataset[5]["____"]

# Load the image processor of the pretrained model
processor = ____.____("Salesforce/blip-image-captioning-base")

# Preprocess the image
inputs = ____(images=____, return_tensors="pt")

# Generate a caption using the model
output = ____(**inputs)
print(f'Generated caption: {processor.decode(output[0])}')
print(f'Original caption: {dataset[5]["caption"][0]}')
Editar y ejecutar código