CommencerCommencer gratuitement

Générez une vidéo !

À vous de jouer : créez une vidéo entièrement à partir d’un prompt texte ! Vous allez utiliser un pipeline CogVideoXPipeline et le prompt suivant pour guider la génération :

Un robot qui fait la danse du robot. La piste de danse a des carrés colorés et une boule à facettes.

Remarque : l’inférence avec des modèles de génération vidéo peut être longue. Nous avons donc préchargé la vidéo générée pour vous. Exécuter d’autres prompts ne générera pas de nouvelles vidéos.

La classe CogVideoXPipeline a déjà été importée pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Créez un CogVideoXPipeline à partir du checkpoint THUDM/CogVideoX-2b.
  • Exécutez le pipeline avec le prompt fourni, en définissant le nombre d’étapes d’inférence à 20, le nombre d’images à générer à 20, et le guidance scale à 6.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")
Modifier et exécuter le code