Análise de sentimentos em vídeos com o CLIP CLAP

Agora você vai fazer a análise das emoções do anúncio que preparou antes usando o CLIP/CLAP. Para fazer uma classificação multimodal das emoções, você vai juntar as previsões desses modelos usando a média (conhecida como fusão tardia).

audio_sampleO vídeo (video) e o áudio que você fez antes ainda estão disponíveis:

Imagens do comercial da Bounce TV

Uma lista de emoções foi carregada como emotions.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercício

Crie um pipeline classificador de áudio para zero-shot-audio-classification usando o modelo laion/clap-htsat-unfused.
Crie um pipeline classificador de imagens para o zero-shot-image-classification usando o modelo openai/clip-vit-base-patch32 (uma versão menor do que usamos no vídeo).
Use o pipeline do classificador de imagens pra gerar previsões pra cada imagem no vídeo.
Use o pipeline do classificador de áudio para gerar previsões para o audio_sample.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Make an audio classifier pipeline
audio_classifier = ____(model="____", task="____")

# Make an image classifier pipeline
image_classifier = ____(model="____", task="____")

# Create emotion scores for each video frame
predictions = image_classifier(video, candidate_labels=emotions)
scores = [
    {l['label']: l['score'] for l in prediction}
    for prediction in predictions
]

avg_image_scores = {emotion: sum([s[emotion] for s in scores])/len(scores) for emotion in emotions}

# Make audio scores
audio_scores = ____(____, candidate_labels=____)

audio_scores = {l['label']: l['score'] for l in audio_scores}
multimodal_scores = {emotion: (avg_image_scores[emotion] + audio_scores[emotion])/2 for emotion in emotions}
print(f"Multimodal scores: {multimodal_scores}")

Editar e executar o código

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.9+

Iniciar curso de graça

Dá uma olhada no hub de modelos do Hugging Face, transforma texto bruto, áudio e dados visuais em formatos que a IA curte. Aprenda a encontrar os modelos mais recentes e populares para tarefas como geração de texto e aproveite o poder dos pipelines pré-construídos.

Exercise 1: Navegação pelo modelo Hugging Face Exercise 2: Quantos modelos!?Exercise 3: Encontrando o modelo de texto para imagem mais popular Exercise 4: Pré-processamento de diferentes modalidades Exercise 5: Tokenização de texto Exercise 6: Pré-processamento de imagens Exercise 7: Pré-processamento de áudio Exercise 8: Tarefas e avaliações do pipeline Exercise 9: Geração de legendas de pipeline Exercise 10: Passando argumentos de palavra-chave Exercise 11: Avaliação do modelo em um conjunto de dados personalizado

Aprenda a dominar modalidades individuais com modelos de última geração. Mergulhe na visão computacional para classificação e segmentação de imagens, explore o reconhecimento de voz e a síntese de texto para voz e aprenda técnicas eficazes de ajuste fino. Desenvolva habilidades práticas com modelos pré-treinados da biblioteca de transformadores da Hugging Face.

Exercise 1: Visão computacional Exercise 2: Classificação de imagens Exercise 3: Detecção de objetos Exercise 4: Remoção do fundo da imagem Exercise 5: Ajustando modelos de visão computacional Exercise 6: Ajustes no currículo: preparação do conjunto de dados Exercise 7: Ajustes no CV: classes do modelo Exercise 8: Ajustes finos no CV: configuração do treinador Exercise 9: Reconhecimento de voz e geração de áudio Exercise 10: Reconhecimento automático de voz Exercise 11: Criando incorporações de fala Exercise 12: Remoção de ruído de áudio Exercise 13: Ajustando modelos de conversão de texto em fala Exercise 14: Ajustando um modelo de conversão de texto em fala Exercise 15: Gerando nova fala

Aprenda a juntar informações visuais, textuais e de áudio para ter aplicativos de IA mais legais. Domine técnicas como CLIP para classificação zero-shot, crie analisadores de sentimentos que veem e leem e crie detectores de emoções que combinam expressões faciais com a voz. Leve seus modelos de IA além do pensamento de modalidade única.

Exercise 1: Classificação de imagens sem treino prévio Exercise 2: Aprendizado zero-shot com CLIP Exercise 3: Avaliação automática da qualidade das legendas Exercise 4: Análise multimodal de sentimentos Exercise 5: Modelos de linguagem de visão por prompt (VLMs)Exercise 6: Classificação multimodal de sentimentos com Qwen Exercise 7: Classificação de vídeo sem treino prévio Exercise 8: Separação de áudio e vídeo Exercise 9: Análise de sentimentos em vídeos com o CLIP CLAP

Exercício atual

Transforme suas ideias em realidade! Domine técnicas de IA de ponta para criar e mexer em conteúdo visual usando comandos de texto. Crie imagens incríveis, edite fotos de forma inteligente e crie sistemas poderosos de perguntas e respostas para imagens e documentos. Transforme sua visão criativa em realidade digital com IA multimodal.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!