Detecção de objetos

Neste exercício, você vai usar o mesmo conjunto de dados do Flickr que usou antes, que tem 30.000 imagens e legendas associadas. Agora você vai ver as caixas delimitadoras dos objetos que o modelo encontrou.

Foto de duas pessoas, uma delas tocando violão

A imagem de exemplo (image) e o módulo do pipeline (pipeline) foram carregados.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercício

Carregue o pipeline object-detection com o modelo pré-treinado facebook/detr-resnet-50.
Encontre o label do objeto que você encontrou.
Encontre a confiança associada score do objeto detectado.
Encontre as coordenadas do limite do objeto detectado ( box ).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the object-detection pipeline
pipe = pipeline("____", "____", revision="no_timm")
pred = pipe(image)
outputs = pipe(image)

for n, obj in enumerate(outputs):
    # Find the detected label
    label = ____
    # Find the confidence score of the prediction
    confidence = ____
    # Obtain the bounding box coordinates
    box = ____
    
    plot_args = {"linewidth": 1, "edgecolor": colors[n], "facecolor": 'none'}
    rect = patches.Rectangle((box['xmin'], box['ymin']), box['xmax']-box['xmin'], box['ymax']-box['ymin'], **plot_args)
    ax.add_patch(rect)
    print(f"Detected {label} with confidence {confidence:.2f} at ({box['xmin']}, {box['ymin']}) to ({box['xmax']}, {box['ymax']})")

plt.show()

Editar e executar o código

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.9+

Iniciar curso de graça

Dá uma olhada no hub de modelos do Hugging Face, transforma texto bruto, áudio e dados visuais em formatos que a IA curte. Aprenda a encontrar os modelos mais recentes e populares para tarefas como geração de texto e aproveite o poder dos pipelines pré-construídos.

Exercise 1: Navegação pelo modelo Hugging Face Exercise 2: Quantos modelos!?Exercise 3: Encontrando o modelo de texto para imagem mais popular Exercise 4: Pré-processamento de diferentes modalidades Exercise 5: Tokenização de texto Exercise 6: Pré-processamento de imagens Exercise 7: Pré-processamento de áudio Exercise 8: Tarefas e avaliações do pipeline Exercise 9: Geração de legendas de pipeline Exercise 10: Passando argumentos nomeados Exercise 11: Avaliação do modelo em um conjunto de dados personalizado

Aprenda a dominar modalidades individuais com modelos de última geração. Mergulhe na visão computacional para classificação e segmentação de imagens, explore o reconhecimento de voz e a síntese de texto para voz e aprenda técnicas eficazes de ajuste fino. Desenvolva habilidades práticas com modelos pré-treinados da biblioteca de transformadores da Hugging Face.

Exercise 1: Visão computacional Exercise 2: Classificação de imagens Exercise 3: Detecção de objetos

Exercício atual

Exercise 4: Remoção do fundo da imagem Exercise 5: Ajustando modelos de visão computacional Exercise 6: Ajustes no currículo: preparação do conjunto de dados Exercise 7: Ajustes no CV: classes do modelo Exercise 8: Ajustes finos no CV: configuração do treinador Exercise 9: Reconhecimento de voz e geração de áudio Exercise 10: Reconhecimento automático de voz Exercise 11: Criando incorporações de fala Exercise 12: Remoção de ruído de áudio Exercise 13: Ajustando modelos de conversão de texto em fala Exercise 14: Ajustando um modelo de conversão de texto em fala Exercise 15: Gerando nova fala

Aprenda a juntar informações visuais, textuais e de áudio para ter aplicativos de IA mais legais. Domine técnicas como CLIP para classificação zero-shot, crie analisadores de sentimentos que veem e leem e crie detectores de emoções que combinam expressões faciais com a voz. Leve seus modelos de IA além do pensamento de modalidade única.

Exercise 1: Classificação de imagens sem treino prévio Exercise 2: Aprendizado zero-shot com CLIP Exercise 3: Avaliação automatizada da qualidade de legendas Exercise 4: Análise multimodal de sentimentos Exercise 5: Modelos de linguagem de visão por prompt (VLMs)Exercise 6: Classificação multimodal de sentimentos com Qwen Exercise 7: Classificação de vídeo sem treino prévio Exercise 8: Separação de áudio e vídeo Exercise 9: Análise de sentimento em vídeo com CLIP CLAP

Transforme suas ideias em realidade! Domine técnicas de IA de ponta para criar e mexer em conteúdo visual usando comandos de texto. Crie imagens incríveis, edite fotos de forma inteligente e crie sistemas poderosos de perguntas e respostas para imagens e documentos. Transforme sua visão criativa em realidade digital com IA multimodal.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!