Mach ein Video!
Jetzt bist du dran: Versuch mal, ein Video nur anhand einer Textvorlage zu erstellen! Du wirst eine Pipeline „ CogVideoXPipeline “ und die folgenden Eingabeaufforderungen verwenden, um die Generierung zu steuern:
Ein Roboter, der den Robotertanz macht. Die Tanzfläche hat bunte Quadrate und eine Discokugel.
Hinweis: Das Erstellen von Schlussfolgerungen zu Videogenerierungsmodellen kann eine Weile dauern, deshalb haben wir das erstellte Video schon mal für dich geladen. Das Ausführen verschiedener Eingabeaufforderungen erzeugt keine neuen Videos.
Die Klasse „ CogVideoXPipeline “ wurde schon für dich importiert.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Mach einen „
CogVideoXPipeline“ vom „THUDM/CogVideoX-2b“-Checkpunkt. - Starte die Pipeline mit der angegebenen Eingabeaufforderung und setz die Anzahl der Inferenzschritte auf „
20“, die Anzahl der zu generierenden Frames auf „20“ und die Führungsskala auf „6“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."
# Create a CogVideoXPipeline
pipe = ____(
"____",
torch_dtype=torch.float16
)
# Run the pipeline with the provided prompt
video = pipe(
prompt=____,
num_inference_steps=____,
num_frames=____,
guidance_scale=____
)
video = video.frames[0]
video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")