Pipeline voor bijschriftgeneratie

In deze oefening gebruik je opnieuw de flickr-gegevensset, met 30.000 afbeeldingen en bijbehorende bijschriften. Nu ga je een bijschrift genereren voor de volgende afbeelding met een pipeline in plaats van de auto-klassen.

Photo of a man standing on a ladder cleaning a window

De gegevensset (dataset) is geladen met de volgende structuur:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

De pipeline-module (pipeline) is geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Oefeninstructies

Laad de image-to-text-pipeline met het voorgetrainde model Salesforce/blip-image-captioning-base.
Gebruik de pipeline om een bijschrift te genereren voor de afbeelding op index 3.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the image-to-text pipeline
pipe = pipeline(task="____", model="____")

# Use the pipeline to generate a caption with the image of datapoint 3
pred = ____(dataset[3]["____"])

print(pred)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Navigeer door de modelhub van Hugging Face en zet ruwe tekst-, audio- en visuele data om in AI-vriendelijke formaten. Leer hoe je de nieuwste en populairste modellen vindt voor taken zoals tekstgeneratie en benut de kracht van kant-en-klare pipelines.

Exercise 1: Navigeren door Hugging Face-modellen Exercise 2: Hoeveel modellen!?Exercise 3: Het populairste text-to-image-model vinden Exercise 4: Voorbewerking van verschillende modaliteiten Exercise 5: Tekst tokenizen Exercise 6: Afbeeldingen preprocessen Exercise 7: Voorbewerking van audio Exercise 8: Pipelinetaken en evaluaties Exercise 9: Pipeline voor bijschriftgeneratie

Huidige oefening

Exercise 10: Keyword-argumenten doorgeven Exercise 11: Model evalueren op een aangepaste gegevensset

Leer individuele modaliteiten beheersen met state-of-the-art modellen. Verdiep je in computervisie voor beeldclassificatie en segmentatie, ontdek spraakherkenning en tekst-naar-spraaksynthese, en leer effectieve fine-tuningtechnieken. Bouw praktische vaardigheden op met voorgetrainde modellen uit de transformers-bibliotheek van Hugging Face.

Exercise 1: Computer vision Exercise 2: Beeldclassificatie Exercise 3: Objectdetectie Exercise 4: Achtergrond van afbeelding verwijderen Exercise 5: Computer vision-modellen fine-tunen Exercise 6: CV fine-tuning: gegevensset voorbereiden Exercise 7: CV-finetuning: modelklassen Exercise 8: CV-fine-tuning: trainerconfiguratie Exercise 9: Spraakherkenning en audiogeneratie Exercise 10: Automatische spraakherkenning Exercise 11: Spraakembeddings maken Exercise 12: Audioreiniging (denoising)Exercise 13: Fijn-tunen van text-to-speech-modellen Exercise 14: Een text-to-speechmodel fine-tunen Exercise 15: Nieuwe spraak genereren

Leer visuele, tekstuele en audio-informatie te combineren voor rijkere AI-toepassingen. Beheers technieken zoals CLIP voor zero-shotclassificatie, bouw sentimentanalyses die kunnen zien én lezen, en maak emotiedetectors die gezichtsuitdrukkingen met stem combineren. Breng je AI-modellen verder dan één enkele modaliteit.

Exercise 1: Zero-shot beeldclassificatie Exercise 2: Zero-shot learning met CLIP Exercise 3: Geautomatiseerde kwaliteitsbeoordeling van bijschriften Exercise 4: Multimodale sentimentanalyse Exercise 5: Prompts schrijven voor Vision Language Models (VLM's)Exercise 6: Multi-modale sentimentclassificatie met Qwen Exercise 7: Zero-shot videoclassificatie Exercise 8: Audio uit video splitsen Exercise 9: Video-sentimentanalyse met CLIP CLAP

Maak van ideeën realiteit! Beheers geavanceerde AI-technieken om visuele content te genereren en te bewerken met tekstprompts. Maak verbluffende afbeeldingen, bewerk foto’s slim, en bouw krachtige vraag-antwoordsystemen voor afbeeldingen en documenten. Zet je creatieve visie om in digitale realiteit met multi-modale AI.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA met Vision Language Transformers (ViLTs)Exercise 3: Document-VQA met LayoutLM Exercise 4: Afbeeldingen bewerken met diffusiemodellen Exercise 5: Aangepaste bewerkingen op afbeeldingen Exercise 6: Image inpainting Exercise 7: Video genereren Exercise 8: Bouw een video!Exercise 9: Prestaties van videogeneratie beoordelen Exercise 10: Gefeliciteerd!