Générez une vidéo !

À vous de jouer : créez une vidéo entièrement à partir d’un prompt texte ! Vous allez utiliser un pipeline CogVideoXPipeline et le prompt suivant pour guider la génération :

Un robot qui fait la danse du robot. La piste de danse a des carrés colorés et une boule à facettes.

Remarque : l’inférence avec des modèles de génération vidéo peut être longue. Nous avons donc préchargé la vidéo générée pour vous. Exécuter d’autres prompts ne générera pas de nouvelles vidéos.

La classe CogVideoXPipeline a déjà été importée pour vous.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Créez un CogVideoXPipeline à partir du checkpoint THUDM/CogVideoX-2b.
Exécutez le pipeline avec le prompt fourni, en définissant le nombre d’étapes d’inférence à 20, le nombre d’images à générer à 20, et le guidance scale à 6.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Parcourez le Hub de modèles Hugging Face et transformez du texte, de l’audio et des données visuelles brutes en formats exploitables par l’IA. Apprenez à trouver les modèles les plus récents et populaires pour des tâches comme la génération de texte et à tirer parti de pipelines prêts à l’emploi.

Exercise 1: Navigation dans les modèles Hugging Face Exercise 2: Combien de modèles !?Exercise 3: Trouver le modèle texte‑vers‑image le plus populaire Exercise 4: Prétraitement des différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Prétraitement d’images Exercise 7: Prétraitement audio Exercise 8: Tâches des pipelines et évaluations Exercise 9: Génération de légendes avec un pipeline Exercise 10: Passer des arguments nommés Exercise 11: Évaluation d’un modèle sur un jeu de données personnalisé

Maîtrisez chaque modalité avec des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d’images, explorez la reconnaissance de la parole et la synthèse text-to-speech, et apprenez des techniques de fine-tuning efficaces. Développez des compétences pratiques avec des modèles préentraînés de la bibliothèque transformers de Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d’images Exercise 3: Détection d’objets Exercise 4: Suppression de l’arrière-plan d’image Exercise 5: Affiner des modèles de vision par ordinateur Exercise 6: Affinage CV : préparation du jeu de données Exercise 7: Ajustement fin en CV : classes du modèle Exercise 8: Ajustement fin en CV : configuration du trainer Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance automatique de la parole Exercise 11: Créer des embeddings de voix Exercise 12: Réduction de bruit audio Exercise 13: Ajuster finement des modèles de synthèse vocale Exercise 14: Ajuster finement un modèle de synthèse vocale Exercise 15: Générer une nouvelle parole

Apprenez à fusionner informations visuelles, textuelles et audio pour des applications d’IA plus riches. Maîtrisez des techniques comme CLIP pour la classification zero-shot, créez des analyseurs de sentiment qui voient et lisent, et concevez des détecteurs d’émotions combinant expressions faciales et voix. Faites sortir vos modèles d’IA de la pensée monomodale.

Exercise 1: Classification d’images en zero-shot Exercise 2: Apprentissage zero-shot avec CLIP Exercise 3: Évaluation automatique de la qualité d’une légende Exercise 4: Analyse de sentiment multimodale Exercise 5: Créer des prompts pour les modèles Vision-Langage (VLM)Exercise 6: Classification de sentiment multi-modale avec Qwen Exercise 7: Classification vidéo zero-shot Exercise 8: Séparation de la piste audio d’une vidéo Exercise 9: Analyse du sentiment vidéo avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez des techniques d’IA de pointe pour générer et manipuler du contenu visuel à partir d’invites textuelles. Créez des images remarquables, retouchez des photos intelligemment et construisez des systèmes puissants de questions-réponses pour les images et les documents. Donnez vie à votre vision créative grâce à l’IA multimodale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA avec des Vision Language Transformers (ViLT)Exercise 3: VQA sur document avec LayoutLM Exercise 4: Retouche d’images avec des modèles de diffusion Exercise 5: Édition d’image personnalisée Exercise 6: Inpainting d’image Exercise 7: Génération de vidéo Exercise 8: Générez une vidéo !

Exercice en cours

Exercise 9: Évaluer les performances de génération vidéo Exercise 10: Félicitations !