ComenzarEmpieza gratis

Evaluación automática de la calidad de los pies de foto

Has clasificado correctamente la imagen del vestido, pero ¿qué tal era la descripción original?

Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.

Ahora usarás el modelo CLIP para cuantificar lo precisa que es esta descripción utilizando el CLIP score. El pie de foto (description), la imagen (image), la clase ToTensor y la función clip_score() de torchmetrics ya están cargados.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Convierte la imagen en un tensor de PyTorch con intensidades en el rango 0-255.
  • Usa la función clip_score() para evaluar la calidad del pie de foto comparando image_tensor y description con el modelo openai/clip-vit-base-patch32.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Editar y ejecutar código