ComeçarComece de graça

Crie um vídeo!

É hora de você tentar criar um vídeo inteiro a partir de um texto! Você vai usar um pipeline CogVideoXPipeline e o seguinte prompt para guiar a geração:

Um robô fazendo a dança do robô. A pista de dança tem quadrados coloridos e uma bola de espelhos.

Observação: A inferência em modelos de geração de vídeo pode demorar um pouco, então a gente já carregou o vídeo gerado pra você. Executar diferentes prompts não vai gerar novos vídeos.

A classe CogVideoXPipeline já foi importada pra você.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Crie um " CogVideoXPipeline " a partir do ponto de verificação " THUDM/CogVideoX-2b ".
  • Execute o pipeline com o prompt fornecido, definindo o número de etapas de inferência para 20, o número de quadros a serem gerados para 20 e a escala de orientação para 6.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")
Editar e executar o código