Edición personalizada de imágenes

La generación de imágenes mediante IA ya es bastante interesante, pero algunos modelos incluso admiten la edición personalizada de imágenes, una variante multimodal de la generación de imágenes que toma tanto una indicación de texto como una imagen de origen como entrada. Prueba a modificar este famoso autorretrato de Van Gogh para convertirlo en el personaje de dibujos animados Snoopy utilizando la herramienta « StableDiffusionControlNetPipeline » (Herramienta de cambio de estilo):

Famoso cuadro de Van Gogh

Nota: La inferencia en modelos de difusión puede llevar mucho tiempo, por lo que hemos precargado la imagen generada para ti. Ejecutar diferentes comandos no generará nuevas imágenes.

Se ha creado una versión de la imagen con el filtro Canny (canny_image). Las clases StableDiffusionControlNetPipeline y ControlNetModel se han importado desde la biblioteca diffusers. Se ha creado la lista de generadores (generator).

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Instrucciones del ejercicio

Carga el archivo « ControlNetModel » desde el punto de control « lllyasviel/sd-controlnet-canny ».
Carga el archivo StableDiffusionControlNetPipeline desde el punto de control runwayml/stable-diffusion-v1-5, pasando el controlnet proporcionado.
Ejecuta el proceso utilizando los archivos prompt, canny_image, negative_prompt y generator proporcionados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load a ControlNetModel from the pretrained checkpoint
controlnet = ____("____", torch_dtype=torch.float16)

# Load a pretrained StableDiffusionControlNetPipeline using the ControlNetModel
pipe = ____(
    "____", controlnet=____, torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = ["Snoopy, best quality, extremely detailed"]

# Run the pipeline
output = pipe(
    ____,
    ____,
    negative_prompt=["monochrome, lowres, bad anatomy, worst quality, low quality"],
    generator=____,
    num_inference_steps=20,
)

plt.imshow(output.images[0])
plt.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

IntermedioNivel de habilidad

4.9+

Comienza el curso gratis

Navega por el centro de modelos de Hugging Face y transforma texto sin procesar, audio y datos visuales en formatos compatibles con la IA. Aprende a encontrar los modelos más populares y recientes para tareas como la generación de texto y aprovecha la potencia de los procesos predefinidos.

Exercise 1: Navegación por el modelo Hugging Face Exercise 2: ¿Cuántos modelos?Exercise 3: Encontrar el modelo de texto a imagen más popular Exercise 4: Preprocesamiento de diferentes modalidades Exercise 5: Tokenización de texto Exercise 6: Preprocesamiento de imágenes Exercise 7: Preprocesamiento de audio Exercise 8: Tareas y evaluaciones de la canalización Exercise 9: Generación de leyendas de tuberías Exercise 10: Pasar argumentos clave Exercise 11: Evaluación del modelo en un conjunto de datos personalizado

Aprende a dominar modalidades individuales con modelos de última generación. Sumérgete en la visión artificial para la clasificación y segmentación de imágenes, explora el reconocimiento de voz y la síntesis de texto a voz, y aprende técnicas eficaces de ajuste fino. Desarrolla habilidades prácticas con modelos preentrenados de la biblioteca de transformadores de Hugging Face.

Exercise 1: Visión artificial Exercise 2: Clasificación de imágenes Exercise 3: Detección de objetos Exercise 4: Eliminación del fondo de una imagen Exercise 5: Ajuste de modelos de visión artificial Exercise 6: Ajuste del CV: preparación del conjunto de datos Exercise 7: Ajuste del CV: clases de modelos Exercise 8: Ajuste del CV: configuración del entrenador Exercise 9: Reconocimiento de voz y generación de audio Exercise 10: Reconocimiento automático del habla Exercise 11: Creación de incrustaciones de voz Exercise 12: Eliminación de ruido en audio Exercise 13: Ajuste de los modelos de conversión de texto a voz Exercise 14: Ajuste de un modelo de conversión de texto a voz Exercise 15: Generación de nuevo discurso

Aprende a fusionar información visual, textual y de audio para crear aplicaciones de IA más completas. Domina técnicas como CLIP para la clasificación sin entrenamiento previo, crea analizadores de sentimientos que ven y leen, y crea detectores de emociones que combinan expresiones faciales con la voz. Lleva tus modelos de IA más allá del pensamiento unimododal.

Exercise 1: Clasificación de imágenes sin entrenamiento previo Exercise 2: Aprendizaje sin disparos con CLIP Exercise 3: Evaluación automatizada de la calidad de los subtítulos Exercise 4: Análisis multimodal del sentimiento Exercise 5: Modelos de lenguaje visual (VLM) con indicaciones Exercise 6: Clasificación multimodal del sentimiento con Qwen Exercise 7: Clasificación de vídeos sin entrenamiento previo Exercise 8: División de audio y vídeo Exercise 9: Análisis del sentimiento en vídeos con CLIP CLAP

¡Transforma tus ideas en realidad! Domina técnicas de IA de vanguardia para generar y manipular contenido visual utilizando indicaciones de texto. Crea imágenes impresionantes, edita fotos de forma inteligente y crea potentes sistemas de preguntas y respuestas para imágenes y documentos. Convierte tu visión creativa en realidad digital con IA multimodal.

Exercise 1: Respuesta visual a preguntas (VQA)Exercise 2: VQA con transformadores de lenguaje visual (ViLT)Exercise 3: Document VQA con LayoutLM Exercise 4: Edición de imágenes con modelos de difusión Exercise 5: Edición personalizada de imágenes

Ejercicio actual

Exercise 6: Relleno de imágenes Exercise 7: Generación de vídeo Exercise 8: ¡Crea un vídeo!Exercise 9: Evaluación del rendimiento de la generación de vídeos Exercise 10: ¡Enhorabuena!