Tokenizzazione del testo

In questo esercizio userai il dataset flickr, che contiene 30.000 immagini con relative didascalie, per eseguire operazioni di preprocessamento sul testo. Questo è necessario per poterlo usare con i modelli in attività come la classificazione del testo. È particolarmente utile per applicazioni multi-modali, in cui i modelli Hugging Face possono verificare l’adeguatezza di una didascalia rispetto all’immagine associata.

Il dataset (dataset) è stato caricato e AutoTokenizer è stato importato.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Esplora l'hub dei modelli di Hugging Face e trasforma testo, audio e dati visivi grezzi in formati adatti all'AI. Scopri come trovare i modelli più recenti e popolari per attività come la generazione di testo e sfrutta la potenza delle pipeline predefinite.

Exercise 1: Navigare tra i modelli su Hugging Face Exercise 2: Quanti modelli!?Exercise 3: Trovare il modello text-to-image più popolare Exercise 4: Preprocessing di diverse modalità Exercise 5: Tokenizzazione del testo

Esercizio attuale

Exercise 6: Preprocessing delle immagini Exercise 7: Preprocessing dell'audio Exercise 8: Attività delle pipeline e valutazioni Exercise 9: Generazione di didascalie con pipeline Exercise 10: Passare argomenti con nome Exercise 11: Valutazione del modello su un insieme di dati personalizzato

Impara a padroneggiare le singole modalità con modelli all'avanguardia. Approfondisci la computer vision per classificazione e segmentazione di immagini, esplora il riconoscimento vocale e la sintesi text-to-speech, e scopri tecniche efficaci di fine-tuning. Sviluppa competenze pratiche con modelli pre-addestrati dalla libreria transformers di Hugging Face.

Exercise 1: Computer vision Exercise 2: Classificazione di immagini Exercise 3: Rilevamento di oggetti Exercise 4: Rimozione dello sfondo dell'immagine Exercise 5: Fine-tuning dei modelli di computer vision Exercise 6: Fine-tuning CV: preparazione del dataset Exercise 7: Fine-tuning CV: classi del modello Exercise 8: Fine-tuning CV: configurazione del trainer Exercise 9: Riconoscimento vocale e generazione audio Exercise 10: Riconoscimento vocale automatico Exercise 11: Creare speech embedding Exercise 12: Rimozione del rumore audio Exercise 13: Messa a punto dei modelli text-to-speech Exercise 14: Fine-tuning di un modello text-to-speech Exercise 15: Generare nuova voce

Impara a fondere informazioni visive, testuali e audio per applicazioni di AI più ricche. Padroneggia tecniche come CLIP per la classificazione zero-shot, crea analizzatori di sentiment che vedono e leggono e sviluppa rilevatori di emozioni che combinano espressioni facciali e voce. Porta i tuoi modelli di AI oltre il pensiero a singola modalità.

Exercise 1: Classificazione di immagini zero-shot Exercise 2: Zero-shot learning con CLIP Exercise 3: Valutazione automatica della qualità delle didascalie Exercise 4: Analisi del sentiment multimodale Exercise 5: Prompting dei modelli Vision Language (VLM)Exercise 6: Classificazione multimodale del sentiment con Qwen Exercise 7: Classificazione video zero-shot Exercise 8: Separare audio e video Exercise 9: Analisi del sentiment dei video con CLIP CLAP

Trasforma le idee in realtà! Padroneggia tecniche di AI all'avanguardia per generare e manipolare contenuti visivi usando prompt testuali. Crea immagini sorprendenti, modifica le foto in modo intelligente e sviluppa potenti sistemi di domanda-risposta per immagini e documenti. Trasforma la tua visione creativa in realtà digitale con l'AI multi-modale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA con i Vision Language Transformers (ViLT)Exercise 3: VQA su documenti con LayoutLM Exercise 4: Modifica delle immagini con modelli di diffusione Exercise 5: Modifica personalizzata di immagini Exercise 6: Image inpainting Exercise 7: Generazione di video Exercise 8: Crea un video!Exercise 9: Valutare le prestazioni della generazione video Exercise 10: Congratulazioni!