Générez une vidéo !
À vous de jouer : créez une vidéo entièrement à partir d’un prompt texte ! Vous allez utiliser un pipeline CogVideoXPipeline et le prompt suivant pour guider la génération :
Un robot qui fait la danse du robot. La piste de danse a des carrés colorés et une boule à facettes.
Remarque : l’inférence avec des modèles de génération vidéo peut être longue. Nous avons donc préchargé la vidéo générée pour vous. Exécuter d’autres prompts ne générera pas de nouvelles vidéos.
La classe CogVideoXPipeline a déjà été importée pour vous.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Créez un
CogVideoXPipelineà partir du checkpointTHUDM/CogVideoX-2b. - Exécutez le pipeline avec le prompt fourni, en définissant le nombre d’étapes d’inférence à
20, le nombre d’images à générer à20, et le guidance scale à6.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."
# Create a CogVideoXPipeline
pipe = ____(
"____",
torch_dtype=torch.float16
)
# Run the pipeline with the provided prompt
video = pipe(
prompt=____,
num_inference_steps=____,
num_frames=____,
guidance_scale=____
)
video = video.frames[0]
video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")