Crie um vídeo!

É hora de você tentar criar um vídeo inteiro a partir de um texto! Você vai usar um pipeline CogVideoXPipeline e o seguinte prompt para guiar a geração:

Um robô fazendo a dança do robô. A pista de dança tem quadrados coloridos e uma bola de espelhos.

Observação: A inferência em modelos de geração de vídeo pode demorar um pouco, então a gente já carregou o vídeo gerado pra você. Executar diferentes prompts não vai gerar novos vídeos.

A classe CogVideoXPipeline já foi importada pra você.

Este exercicio faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercicio

Crie um " CogVideoXPipeline " a partir do ponto de verificação " THUDM/CogVideoX-2b ".
Execute o pipeline com o prompt fornecido, definindo o número de etapas de inferência para 20, o número de quadros a serem gerados para 20 e a escala de orientação para 6.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")

Editar e Executar Código

Este exercicio faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Dá uma olhada no hub de modelos do Hugging Face, transforma texto bruto, áudio e dados visuais em formatos que a IA curte. Aprenda a encontrar os modelos mais recentes e populares para tarefas como geração de texto e aproveite o poder dos pipelines pré-construídos.

Exercise 1: Navegação pelo modelo Hugging Face Exercise 2: Quantos modelos!?Exercise 3: Encontrando o modelo de texto para imagem mais popular Exercise 4: Pré-processamento de diferentes modalidades Exercise 5: Tokenização de texto Exercise 6: Pré-processamento de imagens Exercise 7: Pré-processamento de áudio Exercise 8: Tarefas e avaliações do pipeline Exercise 9: Geração de legendas de pipeline Exercise 10: Passando argumentos nomeados Exercise 11: Avaliação do modelo em um conjunto de dados personalizado

Aprenda a dominar modalidades individuais com modelos de última geração. Mergulhe na visão computacional para classificação e segmentação de imagens, explore o reconhecimento de voz e a síntese de texto para voz e aprenda técnicas eficazes de ajuste fino. Desenvolva habilidades práticas com modelos pré-treinados da biblioteca de transformadores da Hugging Face.

Exercise 1: Visão computacional Exercise 2: Classificação de imagens Exercise 3: Detecção de objetos Exercise 4: Remoção do fundo da imagem Exercise 5: Ajustando modelos de visão computacional Exercise 6: Ajustes no currículo: preparação do conjunto de dados Exercise 7: Ajustes no CV: classes do modelo Exercise 8: Ajustes finos no CV: configuração do treinador Exercise 9: Reconhecimento de voz e geração de áudio Exercise 10: Reconhecimento automático de voz Exercise 11: Criando incorporações de fala Exercise 12: Remoção de ruído de áudio Exercise 13: Ajustando modelos de conversão de texto em fala Exercise 14: Ajustando um modelo de conversão de texto em fala Exercise 15: Gerando nova fala

Aprenda a juntar informações visuais, textuais e de áudio para ter aplicativos de IA mais legais. Domine técnicas como CLIP para classificação zero-shot, crie analisadores de sentimentos que veem e leem e crie detectores de emoções que combinam expressões faciais com a voz. Leve seus modelos de IA além do pensamento de modalidade única.

Exercise 1: Classificação de imagens sem treino prévio Exercise 2: Aprendizado zero-shot com CLIP Exercise 3: Avaliação automatizada da qualidade de legendas Exercise 4: Análise multimodal de sentimentos Exercise 5: Modelos de linguagem de visão por prompt (VLMs)Exercise 6: Classificação multimodal de sentimentos com Qwen Exercise 7: Classificação de vídeo sem treino prévio Exercise 8: Separação de áudio e vídeo Exercise 9: Análise de sentimento em vídeo com CLIP CLAP

Transforme suas ideias em realidade! Domine técnicas de IA de ponta para criar e mexer em conteúdo visual usando comandos de texto. Crie imagens incríveis, edite fotos de forma inteligente e crie sistemas poderosos de perguntas e respostas para imagens e documentos. Transforme sua visão criativa em realidade digital com IA multimodal.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!

Exercicio Atual

Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!