Valutazione automatica della qualità delle didascalie

Hai classificato correttamente l'immagine dell'abito, ma quanto era buona la descrizione originale?

Maa Fab wrap with a Trendy design dress with Vibrant color for an elegant touch of Fabric completely Soft and Comfortable wear with amazing design of Solid Boat ? Neck Flared Dress to make a perfect addition to your wardrobe collection.

Ora userai il modello CLIP per dare una misura quantitativa dell'accuratezza di questa descrizione usando il punteggio CLIP. La didascalia (description), l'immagine (image), la classe ToTensor e la funzione clip_score() di torchmetrics sono già state caricate.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza corso

Istruzioni dell'esercizio

Converti l'immagine in un tensore PyTorch con intensità comprese tra 0 e 255.
Usa la funzione clip_score() per valutare la qualità della didascalia confrontando image_tensor e description con il modello openai/clip-vit-base-patch32.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Convert the image to a PyTorch tensor
image_tensor = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Esplora l'hub dei modelli di Hugging Face e trasforma testo, audio e dati visivi grezzi in formati adatti all'AI. Scopri come trovare i modelli più recenti e popolari per attività come la generazione di testo e sfrutta la potenza delle pipeline predefinite.

Exercise 1: Navigare tra i modelli su Hugging Face Exercise 2: Quanti modelli!?Exercise 3: Trovare il modello text-to-image più popolare Exercise 4: Preprocessing di diverse modalità Exercise 5: Tokenizzazione del testo Exercise 6: Preprocessing delle immagini Exercise 7: Preprocessing dell'audio Exercise 8: Attività delle pipeline e valutazioni Exercise 9: Generazione di didascalie con pipeline Exercise 10: Passare argomenti con nome Exercise 11: Valutazione del modello su un insieme di dati personalizzato

Impara a padroneggiare le singole modalità con modelli all'avanguardia. Approfondisci la computer vision per classificazione e segmentazione di immagini, esplora il riconoscimento vocale e la sintesi text-to-speech, e scopri tecniche efficaci di fine-tuning. Sviluppa competenze pratiche con modelli pre-addestrati dalla libreria transformers di Hugging Face.

Exercise 1: Computer vision Exercise 2: Classificazione di immagini Exercise 3: Rilevamento di oggetti Exercise 4: Rimozione dello sfondo dell'immagine Exercise 5: Fine-tuning dei modelli di computer vision Exercise 6: Fine-tuning CV: preparazione del dataset Exercise 7: Fine-tuning CV: classi del modello Exercise 8: Fine-tuning CV: configurazione del trainer Exercise 9: Riconoscimento vocale e generazione audio Exercise 10: Riconoscimento vocale automatico Exercise 11: Creare speech embedding Exercise 12: Rimozione del rumore audio Exercise 13: Messa a punto dei modelli text-to-speech Exercise 14: Fine-tuning di un modello text-to-speech Exercise 15: Generare nuova voce

Impara a fondere informazioni visive, testuali e audio per applicazioni di AI più ricche. Padroneggia tecniche come CLIP per la classificazione zero-shot, crea analizzatori di sentiment che vedono e leggono e sviluppa rilevatori di emozioni che combinano espressioni facciali e voce. Porta i tuoi modelli di AI oltre il pensiero a singola modalità.

Exercise 1: Classificazione di immagini zero-shot Exercise 2: Zero-shot learning con CLIP Exercise 3: Valutazione automatica della qualità delle didascalie

Esercizio attuale

Exercise 4: Analisi del sentiment multimodale Exercise 5: Prompting dei modelli Vision Language (VLM)Exercise 6: Classificazione multimodale del sentiment con Qwen Exercise 7: Classificazione video zero-shot Exercise 8: Separare audio e video Exercise 9: Analisi del sentiment dei video con CLIP CLAP

Trasforma le idee in realtà! Padroneggia tecniche di AI all'avanguardia per generare e manipolare contenuti visivi usando prompt testuali. Crea immagini sorprendenti, modifica le foto in modo intelligente e sviluppa potenti sistemi di domanda-risposta per immagini e documenti. Trasforma la tua visione creativa in realtà digitale con l'AI multi-modale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA con i Vision Language Transformers (ViLT)Exercise 3: VQA su documenti con LayoutLM Exercise 4: Modifica delle immagini con modelli di diffusione Exercise 5: Modifica personalizzata di immagini Exercise 6: Image inpainting Exercise 7: Generazione di video Exercise 8: Crea un video!Exercise 9: Valutare le prestazioni della generazione video Exercise 10: Congratulazioni!