Prompting dei modelli Vision Language (VLM)

Nei prossimi due esercizi userai un modello multi-modale per analizzare il sentiment di un articolo di news e della sua immagine di copertina corrispondente dal dataset BBC News su Hugging Face:

BBC News dataset card

Per iniziare, preparerai un chat template per il modello che includa sia l'immagine sia l'articolo. Il dataset (dataset) e l'immagine di copertina (image) sono già stati caricati.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza corso

Istruzioni dell'esercizio

Carica il contenuto dell'articolo di news (content) dal datapoint all'indice 6 in dataset.
Completa la query di testo per inserire content in text_query usando le f-string.
Aggiungi image e text_query al chat template, specificando il tipo di contenuto di text_query come "text".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load the news article content from datapoint 6
content = ____

# Complete the text query
text_query = f"Does the news article have a positive, negative, or neutral impact on championship winning chances: {____}. Provide reasoning."

# Add the text query dictionary to the chat template
chat_template = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": ____,
            },
            ____
        ],
    }
]

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Esplora l'hub dei modelli di Hugging Face e trasforma testo, audio e dati visivi grezzi in formati adatti all'AI. Scopri come trovare i modelli più recenti e popolari per attività come la generazione di testo e sfrutta la potenza delle pipeline predefinite.

Exercise 1: Navigare tra i modelli su Hugging Face Exercise 2: Quanti modelli!?Exercise 3: Trovare il modello text-to-image più popolare Exercise 4: Preprocessing di diverse modalità Exercise 5: Tokenizzazione del testo Exercise 6: Preprocessing delle immagini Exercise 7: Preprocessing dell'audio Exercise 8: Attività delle pipeline e valutazioni Exercise 9: Generazione di didascalie con pipeline Exercise 10: Passare argomenti con nome Exercise 11: Valutazione del modello su un insieme di dati personalizzato

Impara a padroneggiare le singole modalità con modelli all'avanguardia. Approfondisci la computer vision per classificazione e segmentazione di immagini, esplora il riconoscimento vocale e la sintesi text-to-speech, e scopri tecniche efficaci di fine-tuning. Sviluppa competenze pratiche con modelli pre-addestrati dalla libreria transformers di Hugging Face.

Exercise 1: Computer vision Exercise 2: Classificazione di immagini Exercise 3: Rilevamento di oggetti Exercise 4: Rimozione dello sfondo dell'immagine Exercise 5: Fine-tuning dei modelli di computer vision Exercise 6: Fine-tuning CV: preparazione del dataset Exercise 7: Fine-tuning CV: classi del modello Exercise 8: Fine-tuning CV: configurazione del trainer Exercise 9: Riconoscimento vocale e generazione audio Exercise 10: Riconoscimento vocale automatico Exercise 11: Creare speech embedding Exercise 12: Rimozione del rumore audio Exercise 13: Messa a punto dei modelli text-to-speech Exercise 14: Fine-tuning di un modello text-to-speech Exercise 15: Generare nuova voce

Impara a fondere informazioni visive, testuali e audio per applicazioni di AI più ricche. Padroneggia tecniche come CLIP per la classificazione zero-shot, crea analizzatori di sentiment che vedono e leggono e sviluppa rilevatori di emozioni che combinano espressioni facciali e voce. Porta i tuoi modelli di AI oltre il pensiero a singola modalità.

Exercise 1: Classificazione di immagini zero-shot Exercise 2: Zero-shot learning con CLIP Exercise 3: Valutazione automatica della qualità delle didascalie Exercise 4: Analisi del sentiment multimodale Exercise 5: Prompting dei modelli Vision Language (VLM)

Esercizio attuale

Exercise 6: Classificazione multimodale del sentiment con Qwen Exercise 7: Classificazione video zero-shot Exercise 8: Separare audio e video Exercise 9: Analisi del sentiment dei video con CLIP CLAP

Trasforma le idee in realtà! Padroneggia tecniche di AI all'avanguardia per generare e manipolare contenuti visivi usando prompt testuali. Crea immagini sorprendenti, modifica le foto in modo intelligente e sviluppa potenti sistemi di domanda-risposta per immagini e documenti. Trasforma la tua visione creativa in realtà digitale con l'AI multi-modale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA con i Vision Language Transformers (ViLT)Exercise 3: VQA su documenti con LayoutLM Exercise 4: Modifica delle immagini con modelli di diffusione Exercise 5: Modifica personalizzata di immagini Exercise 6: Image inpainting Exercise 7: Generazione di video Exercise 8: Crea un video!Exercise 9: Valutare le prestazioni della generazione video Exercise 10: Congratulazioni!