CommencerCommencez gratuitement

Générez une vidéo !

À vous de jouer : créez une vidéo entièrement à partir d’un prompt texte ! Vous allez utiliser un pipeline CogVideoXPipeline et le prompt suivant pour guider la génération :

Un robot qui fait la danse du robot. La piste de danse a des carrés colorés et une boule à facettes.

Remarque : l’inférence avec des modèles de génération vidéo peut être longue. Nous avons donc préchargé la vidéo générée pour vous. Exécuter d’autres prompts ne générera pas de nouvelles vidéos.

La classe CogVideoXPipeline a déjà été importée pour vous.

Cet exercice fait partie du cours

<cours>Modèles multimodaux avec Hugging Face</cours>
Voir le cours

Instructions de l’exercice

  • Créez un CogVideoXPipeline à partir du checkpoint THUDM/CogVideoX-2b.
  • Exécutez le pipeline avec le prompt fourni, en définissant le nombre d’étapes d’inférence à 20, le nombre d’images à générer à 20, et le guidance scale à 6.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")
Modifier et exécuter le code