Prompts schrijven voor Vision Language Models (VLM's)

In de komende twee oefeningen gebruik je een multi-modale model om de sentimenten te analyseren van een nieuwsartikel en de bijbehorende kopafbeelding uit de BBC News-gegevensset op Hugging Face:

BBC News dataset card

Om te beginnen maak je een chattemplate voor het model die zowel de afbeelding als het nieuwsartikel bevat. De gegevensset (dataset) en de kopafbeelding (image) zijn geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Oefeninstructies

Laad de inhoud van het nieuwsartikel (content) uit het datapunt op index 6 in de dataset.
Maak de tekstquery af om content in te voegen in text_query met f-strings.
Voeg de image en text_query toe aan de chattemplate en geef voor text_query het contenttype op als "text".

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Navigeer door de modelhub van Hugging Face en zet ruwe tekst-, audio- en visuele data om in AI-vriendelijke formaten. Leer hoe je de nieuwste en populairste modellen vindt voor taken zoals tekstgeneratie en benut de kracht van kant-en-klare pipelines.

Exercise 1: Navigeren door Hugging Face-modellen Exercise 2: Hoeveel modellen!?Exercise 3: Het populairste text-to-image-model vinden Exercise 4: Voorbewerking van verschillende modaliteiten Exercise 5: Tekst tokenizen Exercise 6: Afbeeldingen preprocessen Exercise 7: Voorbewerking van audio Exercise 8: Pipelinetaken en evaluaties Exercise 9: Pipeline voor bijschriftgeneratie Exercise 10: Keyword-argumenten doorgeven Exercise 11: Model evalueren op een aangepaste gegevensset

Leer individuele modaliteiten beheersen met state-of-the-art modellen. Verdiep je in computervisie voor beeldclassificatie en segmentatie, ontdek spraakherkenning en tekst-naar-spraaksynthese, en leer effectieve fine-tuningtechnieken. Bouw praktische vaardigheden op met voorgetrainde modellen uit de transformers-bibliotheek van Hugging Face.

Exercise 1: Computer vision Exercise 2: Beeldclassificatie Exercise 3: Objectdetectie Exercise 4: Achtergrond van afbeelding verwijderen Exercise 5: Computer vision-modellen fine-tunen Exercise 6: CV fine-tuning: gegevensset voorbereiden Exercise 7: CV-finetuning: modelklassen Exercise 8: CV-fine-tuning: trainerconfiguratie Exercise 9: Spraakherkenning en audiogeneratie Exercise 10: Automatische spraakherkenning Exercise 11: Spraakembeddings maken Exercise 12: Audioreiniging (denoising)Exercise 13: Fijn-tunen van text-to-speech-modellen Exercise 14: Een text-to-speechmodel fine-tunen Exercise 15: Nieuwe spraak genereren

Leer visuele, tekstuele en audio-informatie te combineren voor rijkere AI-toepassingen. Beheers technieken zoals CLIP voor zero-shotclassificatie, bouw sentimentanalyses die kunnen zien én lezen, en maak emotiedetectors die gezichtsuitdrukkingen met stem combineren. Breng je AI-modellen verder dan één enkele modaliteit.

Exercise 1: Zero-shot beeldclassificatie Exercise 2: Zero-shot learning met CLIP Exercise 3: Geautomatiseerde kwaliteitsbeoordeling van bijschriften Exercise 4: Multimodale sentimentanalyse Exercise 5: Prompts schrijven voor Vision Language Models (VLM's)

Huidige oefening

Exercise 6: Multi-modale sentimentclassificatie met Qwen Exercise 7: Zero-shot videoclassificatie Exercise 8: Audio uit video splitsen Exercise 9: Video-sentimentanalyse met CLIP CLAP

Maak van ideeën realiteit! Beheers geavanceerde AI-technieken om visuele content te genereren en te bewerken met tekstprompts. Maak verbluffende afbeeldingen, bewerk foto’s slim, en bouw krachtige vraag-antwoordsystemen voor afbeeldingen en documenten. Zet je creatieve visie om in digitale realiteit met multi-modale AI.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA met Vision Language Transformers (ViLTs)Exercise 3: Document-VQA met LayoutLM Exercise 4: Afbeeldingen bewerken met diffusiemodellen Exercise 5: Aangepaste bewerkingen op afbeeldingen Exercise 6: Image inpainting Exercise 7: Video genereren Exercise 8: Bouw een video!Exercise 9: Prestaties van videogeneratie beoordelen Exercise 10: Gefeliciteerd!