Preenchimento de imagens

Vamos dar uma reviravolta na geração de imagens multimodais combinando-a com a restauração de imagens. Você vai modificar o autorretrato de Van Gogh para que ele tenha uma barba preta usando a ferramenta “ StableDiffusionControlNetInpaintPipeline ” e uma máscara de imagem, que foi criada para você (mask_image):

Pintura famosa de Van Gogh e máscara

Observação: A inferência em modelos de difusão pode demorar um pouco, então a gente já carregou a imagem gerada pra você. Executar diferentes comandos não vai gerar novas imagens.

A versão original da imagem foi carregada como init_image, junto com uma imagem de controle (control_image) criada com a função make_inpaint_condition() do vídeo.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercício

Execute o pipeline com um prompt feito pra gerar uma barba preta, colocando num_inference_steps=40 e passando o init_image, mask_image e control_image.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Run the pipeline requesting a black beard
output = pipe(
    ____,
    num_inference_steps=____,
    eta=1.0,
    image=____,
    mask_image=____,
    control_image=____
)

plt.imshow(output.images[0])
plt.show()

Editar e executar o código

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Navigate the Hugging Face model hub, transform raw text, audio, and visual data into AI-friendly formats. Learn how to find the latest most popular models for tasks such as text generation and harness the power of pre-built pipelines.

Exercise 1: Hugging Face model navigation Exercise 2: How many models!?Exercise 3: Finding the most popular text-to-image model Exercise 4: Preprocessing different modalities Exercise 5: Text tokenizing Exercise 6: Image preprocessing Exercise 7: Audio preprocessing Exercise 8: Pipeline tasks and evaluations Exercise 9: Pipeline caption generation Exercise 10: Passing keyword arguments Exercise 11: Model evaluation on a custom dataset

Learn to master individual modalities with state-of-the-art models. Dive into computer vision for image classification and segmentation, explore speech recognition and text-to-speech synthesis, and learn effective fine-tuning techniques. Build practical skills with pre-trained models from Hugging Face's transformers library.

Exercise 1: Computer vision Exercise 2: Image classification Exercise 3: Object detection Exercise 4: Image background removal Exercise 5: Fine-tuning computer vision models Exercise 6: CV fine-tuning: dataset prep Exercise 7: CV fine-tuning: model classes Exercise 8: CV fine-tuning: trainer configuration Exercise 9: Speech recognition and audio generation Exercise 10: Automatic speech recognition Exercise 11: Creating speech embeddings Exercise 12: Audio denoising Exercise 13: Fine-tuning text-to-speech models Exercise 14: Fine-tuning a text-to-speech model Exercise 15: Generating new speech

Learn to fuse visual, textual, and audio information for richer AI applications. Master techniques like CLIP for zero-shot classification, build sentiment analyzers that see and read, and create emotion detectors that combine facial expressions with voice. Take your AI models beyond single-modality thinking.

Exercise 1: Zero-shot image classification Exercise 2: Zero-shot learning with CLIP Exercise 3: Automated caption quality assessment Exercise 4: Multi-modal sentiment analysis Exercise 5: Prompting Vision Language Models (VLMs)Exercise 6: Multi-modal sentiment classification with Qwen Exercise 7: Zero-shot video classification Exercise 8: Video audio splitting Exercise 9: Video sentiment analysis with CLIP CLAP

Transform ideas into reality! Master cutting-edge AI techniques to generate and manipulate visual content using text prompts. Create stunning images, edit photos intelligently, and build powerful question-answering systems for images and documents. Turn your creative vision into digital reality with multi-modal AI.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens

Exercício atual

Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!