ComenzarEmpieza gratis

Evaluación automatizada de la calidad de los subtítulos

Has clasificado correctamente la imagen del vestido, pero ¿qué tal era la descripción original?

Envoltura Maa Fab con un vestido de diseño moderno y colores vivos para un toque elegante. Tejido totalmente suave y cómodo con un increíble diseño de barco sólido. Vestido con cuello acampanado, el complemento perfecto para tu armario.

Ahora utilizarás el modelo CLIP para realizar una afirmación cuantitativa sobre la precisión de esta descripción utilizando la puntuación CLIP. Se han cargado el pie de foto (description), la imagen (image), la clase ToTensor y la función clip_score() de torchmetrics.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Convierte la imagen a un tensor PyTorch con intensidades que van de 0 a 255.
  • Utiliza la función « clip_score() » (Compara con el modelo) para evaluar la calidad de los subtítulos comparando image y description con el modelo openai/clip-vit-base-patch32.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Convert the image to a PyTorch tensor
image = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")
Editar y ejecutar código