Aprendizado zero-shot com CLIP

Você vai usar o aprendizado zero-shot pra classificar uma imagem do conjunto de dados rajuptvs/ecommerce_products_clip, que tem cerca de 2 mil imagens de produtos com descrições relacionadas:

Imagem de uma mulher a desfilar um vestido

O conjunto de dados (dataset), o CLIPProcessor (processor) e o CLIPModel (model) já estão carregados pra você, junto com uma lista de categorias:

categories = ["shirt", "trousers", "shoes", "dress", "hat", 
              "bag", "watch", "glasses", "jacket", "belt"]

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercício

Use o processor para pré-processar o categories e a imagem no índice 999 de dataset; habilite o preenchimento.
Passa o arquivo descompactado “ inputs ” para “ model ”.
Calcule as probabilidades de cada categoria usando o atributo “ .logits_per_image ” e o método “ .softmax() ”.
Encontre a categoria mais provável usando probs e categories.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Preprocess the categories and image 
inputs = ____(text=____, images=____, return_tensors="pt", padding=____)

# Process the unpacked inputs with the model
outputs = ____

# Calculate the probabilities of each category
probs = outputs.____.____(dim=1)

# Find the most likely category
category = categories[probs.____.item()]
print(f"Predicted category: {category}")

Editar e executar o código

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.9+

Iniciar curso de graça

Dá uma olhada no hub de modelos do Hugging Face, transforma texto bruto, áudio e dados visuais em formatos que a IA curte. Aprenda a encontrar os modelos mais recentes e populares para tarefas como geração de texto e aproveite o poder dos pipelines pré-construídos.

Exercise 1: Navegação pelo modelo Hugging Face Exercise 2: Quantos modelos!?Exercise 3: Encontrando o modelo de texto para imagem mais popular Exercise 4: Pré-processamento de diferentes modalidades Exercise 5: Tokenização de texto Exercise 6: Pré-processamento de imagens Exercise 7: Pré-processamento de áudio Exercise 8: Tarefas e avaliações do pipeline Exercise 9: Geração de legendas de pipeline Exercise 10: Passando argumentos de palavra-chave Exercise 11: Avaliação do modelo em um conjunto de dados personalizado

Aprenda a dominar modalidades individuais com modelos de última geração. Mergulhe na visão computacional para classificação e segmentação de imagens, explore o reconhecimento de voz e a síntese de texto para voz e aprenda técnicas eficazes de ajuste fino. Desenvolva habilidades práticas com modelos pré-treinados da biblioteca de transformadores da Hugging Face.

Exercise 1: Visão computacional Exercise 2: Classificação de imagens Exercise 3: Detecção de objetos Exercise 4: Remoção do fundo da imagem Exercise 5: Ajustando modelos de visão computacional Exercise 6: Ajustes no currículo: preparação do conjunto de dados Exercise 7: Ajustes no CV: classes do modelo Exercise 8: Ajustes finos no CV: configuração do treinador Exercise 9: Reconhecimento de voz e geração de áudio Exercise 10: Reconhecimento automático de voz Exercise 11: Criando incorporações de fala Exercise 12: Remoção de ruído de áudio Exercise 13: Ajustando modelos de conversão de texto em fala Exercise 14: Ajustando um modelo de conversão de texto em fala Exercise 15: Gerando nova fala

Aprenda a juntar informações visuais, textuais e de áudio para ter aplicativos de IA mais legais. Domine técnicas como CLIP para classificação zero-shot, crie analisadores de sentimentos que veem e leem e crie detectores de emoções que combinam expressões faciais com a voz. Leve seus modelos de IA além do pensamento de modalidade única.

Exercise 1: Classificação de imagens sem treino prévio Exercise 2: Aprendizado zero-shot com CLIP

Exercício atual

Exercise 3: Avaliação automática da qualidade das legendas Exercise 4: Análise multimodal de sentimentos Exercise 5: Modelos de linguagem de visão por prompt (VLMs)Exercise 6: Classificação multimodal de sentimentos com Qwen Exercise 7: Classificação de vídeo sem treino prévio Exercise 8: Separação de áudio e vídeo Exercise 9: Análise de sentimentos em vídeos com o CLIP CLAP

Transforme suas ideias em realidade! Domine técnicas de IA de ponta para criar e mexer em conteúdo visual usando comandos de texto. Crie imagens incríveis, edite fotos de forma inteligente e crie sistemas poderosos de perguntas e respostas para imagens e documentos. Transforme sua visão criativa em realidade digital com IA multimodal.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!