Bouw een video!

Tijd om zelf een video te maken, helemaal vanuit een tekstprompt! Je gebruikt een CogVideoXPipeline-pipeline en de volgende prompt om de generatie te sturen:

Een robot die de robotdans doet. De dansvloer heeft kleurrijke vierkanten en een glitterbal.

Let op: inferentie met videogeneratiemodellen kan lang duren, dus we hebben de gegenereerde video alvast voor je geladen. Het uitvoeren van andere prompts genereert geen nieuwe video's.

De klasse CogVideoXPipeline is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Oefeninstructies

Maak een CogVideoXPipeline vanuit het THUDM/CogVideoX-2b-checkpoint.
Voer de pipeline uit met de gegeven prompt, met het aantal inferentiestappen op 20, het aantal te genereren frames op 20, en de guidance scale op 6.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

prompt = "A robot doing the robot dance. The dance floor has colorful squares and a glitterball."

# Create a CogVideoXPipeline
pipe = ____(
    "____",
    torch_dtype=torch.float16
)

# Run the pipeline with the provided prompt
video = pipe(
    prompt=____,
    num_inference_steps=____,
    num_frames=____,
    guidance_scale=____
)
video = video.frames[0]

video_path = export_to_video(video, "output.mp4", fps=8)
video = VideoFileClip(video_path)
video.write_gif("video_ex.gif")

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Navigeer door de modelhub van Hugging Face en zet ruwe tekst-, audio- en visuele data om in AI-vriendelijke formaten. Leer hoe je de nieuwste en populairste modellen vindt voor taken zoals tekstgeneratie en benut de kracht van kant-en-klare pipelines.

Exercise 1: Navigeren door Hugging Face-modellen Exercise 2: Hoeveel modellen!?Exercise 3: Het populairste text-to-image-model vinden Exercise 4: Voorbewerking van verschillende modaliteiten Exercise 5: Tekst tokenizen Exercise 6: Afbeeldingen preprocessen Exercise 7: Voorbewerking van audio Exercise 8: Pipelinetaken en evaluaties Exercise 9: Pipeline voor bijschriftgeneratie Exercise 10: Keyword-argumenten doorgeven Exercise 11: Model evalueren op een aangepaste gegevensset

Leer individuele modaliteiten beheersen met state-of-the-art modellen. Verdiep je in computervisie voor beeldclassificatie en segmentatie, ontdek spraakherkenning en tekst-naar-spraaksynthese, en leer effectieve fine-tuningtechnieken. Bouw praktische vaardigheden op met voorgetrainde modellen uit de transformers-bibliotheek van Hugging Face.

Exercise 1: Computer vision Exercise 2: Beeldclassificatie Exercise 3: Objectdetectie Exercise 4: Achtergrond van afbeelding verwijderen Exercise 5: Computer vision-modellen fine-tunen Exercise 6: CV fine-tuning: gegevensset voorbereiden Exercise 7: CV-finetuning: modelklassen Exercise 8: CV-fine-tuning: trainerconfiguratie Exercise 9: Spraakherkenning en audiogeneratie Exercise 10: Automatische spraakherkenning Exercise 11: Spraakembeddings maken Exercise 12: Audioreiniging (denoising)Exercise 13: Fijn-tunen van text-to-speech-modellen Exercise 14: Een text-to-speechmodel fine-tunen Exercise 15: Nieuwe spraak genereren

Leer visuele, tekstuele en audio-informatie te combineren voor rijkere AI-toepassingen. Beheers technieken zoals CLIP voor zero-shotclassificatie, bouw sentimentanalyses die kunnen zien én lezen, en maak emotiedetectors die gezichtsuitdrukkingen met stem combineren. Breng je AI-modellen verder dan één enkele modaliteit.

Exercise 1: Zero-shot beeldclassificatie Exercise 2: Zero-shot learning met CLIP Exercise 3: Geautomatiseerde kwaliteitsbeoordeling van bijschriften Exercise 4: Multimodale sentimentanalyse Exercise 5: Prompts schrijven voor Vision Language Models (VLM's)Exercise 6: Multi-modale sentimentclassificatie met Qwen Exercise 7: Zero-shot videoclassificatie Exercise 8: Audio uit video splitsen Exercise 9: Video-sentimentanalyse met CLIP CLAP

Maak van ideeën realiteit! Beheers geavanceerde AI-technieken om visuele content te genereren en te bewerken met tekstprompts. Maak verbluffende afbeeldingen, bewerk foto’s slim, en bouw krachtige vraag-antwoordsystemen voor afbeeldingen en documenten. Zet je creatieve visie om in digitale realiteit met multi-modale AI.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA met Vision Language Transformers (ViLTs)Exercise 3: Document-VQA met LayoutLM Exercise 4: Afbeeldingen bewerken met diffusiemodellen Exercise 5: Aangepaste bewerkingen op afbeeldingen Exercise 6: Image inpainting Exercise 7: Video genereren Exercise 8: Bouw een video!

Huidige oefening

Exercise 9: Prestaties van videogeneratie beoordelen Exercise 10: Gefeliciteerd!