Generazione di didascalie con pipeline

In questo esercizio userai di nuovo il dataset flickr, che contiene 30.000 immagini con le relative didascalie. Ora genererai una didascalia per l'immagine seguente usando una pipeline invece delle auto classes.

Photo of a man standing on a ladder cleaning a window

Il dataset (dataset) è stato caricato con la seguente struttura:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Il modulo delle pipeline (pipeline) è stato caricato.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza corso

Istruzioni dell'esercizio

Carica la pipeline image-to-text con il modello pretrained Salesforce/blip-image-captioning-base.
Usa la pipeline per generare una didascalia per l'immagine all'indice 3.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load the image-to-text pipeline
pipe = pipeline(task="____", model="____")

# Use the pipeline to generate a caption with the image of datapoint 3
pred = ____(dataset[3]["____"])

print(pred)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Esplora l'hub dei modelli di Hugging Face e trasforma testo, audio e dati visivi grezzi in formati adatti all'AI. Scopri come trovare i modelli più recenti e popolari per attività come la generazione di testo e sfrutta la potenza delle pipeline predefinite.

Exercise 1: Navigare tra i modelli su Hugging Face Exercise 2: Quanti modelli!?Exercise 3: Trovare il modello text-to-image più popolare Exercise 4: Preprocessing di diverse modalità Exercise 5: Tokenizzazione del testo Exercise 6: Preprocessing delle immagini Exercise 7: Preprocessing dell'audio Exercise 8: Attività delle pipeline e valutazioni Exercise 9: Generazione di didascalie con pipeline

Esercizio attuale

Exercise 10: Passare argomenti con nome Exercise 11: Valutazione del modello su un insieme di dati personalizzato

Impara a padroneggiare le singole modalità con modelli all'avanguardia. Approfondisci la computer vision per classificazione e segmentazione di immagini, esplora il riconoscimento vocale e la sintesi text-to-speech, e scopri tecniche efficaci di fine-tuning. Sviluppa competenze pratiche con modelli pre-addestrati dalla libreria transformers di Hugging Face.

Exercise 1: Computer vision Exercise 2: Classificazione di immagini Exercise 3: Rilevamento di oggetti Exercise 4: Rimozione dello sfondo dell'immagine Exercise 5: Fine-tuning dei modelli di computer vision Exercise 6: Fine-tuning CV: preparazione del dataset Exercise 7: Fine-tuning CV: classi del modello Exercise 8: Fine-tuning CV: configurazione del trainer Exercise 9: Riconoscimento vocale e generazione audio Exercise 10: Riconoscimento vocale automatico Exercise 11: Creare speech embedding Exercise 12: Rimozione del rumore audio Exercise 13: Messa a punto dei modelli text-to-speech Exercise 14: Fine-tuning di un modello text-to-speech Exercise 15: Generare nuova voce

Impara a fondere informazioni visive, testuali e audio per applicazioni di AI più ricche. Padroneggia tecniche come CLIP per la classificazione zero-shot, crea analizzatori di sentiment che vedono e leggono e sviluppa rilevatori di emozioni che combinano espressioni facciali e voce. Porta i tuoi modelli di AI oltre il pensiero a singola modalità.

Exercise 1: Classificazione di immagini zero-shot Exercise 2: Zero-shot learning con CLIP Exercise 3: Valutazione automatica della qualità delle didascalie Exercise 4: Analisi del sentiment multimodale Exercise 5: Prompting dei modelli Vision Language (VLM)Exercise 6: Classificazione multimodale del sentiment con Qwen Exercise 7: Classificazione video zero-shot Exercise 8: Separare audio e video Exercise 9: Analisi del sentiment dei video con CLIP CLAP

Trasforma le idee in realtà! Padroneggia tecniche di AI all'avanguardia per generare e manipolare contenuti visivi usando prompt testuali. Crea immagini sorprendenti, modifica le foto in modo intelligente e sviluppa potenti sistemi di domanda-risposta per immagini e documenti. Trasforma la tua visione creativa in realtà digitale con l'AI multi-modale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA con i Vision Language Transformers (ViLT)Exercise 3: VQA su documenti con LayoutLM Exercise 4: Modifica delle immagini con modelli di diffusione Exercise 5: Modifica personalizzata di immagini Exercise 6: Image inpainting Exercise 7: Generazione di video Exercise 8: Crea un video!Exercise 9: Valutare le prestazioni della generazione video Exercise 10: Congratulazioni!