CommencerCommencer gratuitement

Créez une vidéo !

Il est temps pour vous de vous essayer à la création d'une vidéo à partir d'un simple texte ! Vous utiliserez un pipeline CogVideoXPipeline et l'invite suivante pour guider la génération :

Un robot exécutant la danse du robot. La piste de danse est décorée de carrés colorés et d'une boule à facettes.

Note : L'inférence sur les modèles de génération vidéo peut prendre un certain temps, c'est pourquoi nous avons préchargé la vidéo générée pour vous. L'exécution de différentes invites ne générera pas de nouvelles vidéos.

La classe CogVideoXPipeline a déjà été importée pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • CogVideoXPipeline Créez une nouvelle session à partir du point de contrôle « THUDM/CogVideoX-2b ».
  • Exécutez le pipeline à l'aide de l'invite fournie, en définissant le nombre d'étapes d'inférence sur 20, le nombre d'images à générer sur 20 et l'échelle de guidage sur 6.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")
Modifier et exécuter le code