Preprocessing dell'audio

In questo esercizio imparerai come regolare la frequenza di campionamento dei dati audio e come usare un preprocessore automatico. Lavorerai con il VCTK Corpus, che include circa 44 ore di parlato registrato da 110 speaker inglesi con vari accenti.

Il dataset è già stato caricato.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza corso

Istruzioni dell'esercizio

Ricampiona l'audio a una frequenza di 16.000 Hz nell'insieme di dati usando il metodo .cast_column().
Carica l'audio processor usando il modello pretrained openai/whisper-small.
Preprocessa i dati audio del primo datapoint, specificando la stessa frequenza di campionamento e padding=True.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Esplora l'hub dei modelli di Hugging Face e trasforma testo, audio e dati visivi grezzi in formati adatti all'AI. Scopri come trovare i modelli più recenti e popolari per attività come la generazione di testo e sfrutta la potenza delle pipeline predefinite.

Exercise 1: Navigare tra i modelli su Hugging Face Exercise 2: Quanti modelli!?Exercise 3: Trovare il modello text-to-image più popolare Exercise 4: Preprocessing di diverse modalità Exercise 5: Tokenizzazione del testo Exercise 6: Preprocessing delle immagini Exercise 7: Preprocessing dell'audio

Esercizio attuale

Exercise 8: Attività delle pipeline e valutazioni Exercise 9: Generazione di didascalie con pipeline Exercise 10: Passare argomenti con nome Exercise 11: Valutazione del modello su un insieme di dati personalizzato

Impara a padroneggiare le singole modalità con modelli all'avanguardia. Approfondisci la computer vision per classificazione e segmentazione di immagini, esplora il riconoscimento vocale e la sintesi text-to-speech, e scopri tecniche efficaci di fine-tuning. Sviluppa competenze pratiche con modelli pre-addestrati dalla libreria transformers di Hugging Face.

Exercise 1: Computer vision Exercise 2: Classificazione di immagini Exercise 3: Rilevamento di oggetti Exercise 4: Rimozione dello sfondo dell'immagine Exercise 5: Fine-tuning dei modelli di computer vision Exercise 6: Fine-tuning CV: preparazione del dataset Exercise 7: Fine-tuning CV: classi del modello Exercise 8: Fine-tuning CV: configurazione del trainer Exercise 9: Riconoscimento vocale e generazione audio Exercise 10: Riconoscimento vocale automatico Exercise 11: Creare speech embedding Exercise 12: Rimozione del rumore audio Exercise 13: Messa a punto dei modelli text-to-speech Exercise 14: Fine-tuning di un modello text-to-speech Exercise 15: Generare nuova voce

Impara a fondere informazioni visive, testuali e audio per applicazioni di AI più ricche. Padroneggia tecniche come CLIP per la classificazione zero-shot, crea analizzatori di sentiment che vedono e leggono e sviluppa rilevatori di emozioni che combinano espressioni facciali e voce. Porta i tuoi modelli di AI oltre il pensiero a singola modalità.

Exercise 1: Classificazione di immagini zero-shot Exercise 2: Zero-shot learning con CLIP Exercise 3: Valutazione automatica della qualità delle didascalie Exercise 4: Analisi del sentiment multimodale Exercise 5: Prompting dei modelli Vision Language (VLM)Exercise 6: Classificazione multimodale del sentiment con Qwen Exercise 7: Classificazione video zero-shot Exercise 8: Separare audio e video Exercise 9: Analisi del sentiment dei video con CLIP CLAP

Trasforma le idee in realtà! Padroneggia tecniche di AI all'avanguardia per generare e manipolare contenuti visivi usando prompt testuali. Crea immagini sorprendenti, modifica le foto in modo intelligente e sviluppa potenti sistemi di domanda-risposta per immagini e documenti. Trasforma la tua visione creativa in realtà digitale con l'AI multi-modale.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA con i Vision Language Transformers (ViLT)Exercise 3: VQA su documenti con LayoutLM Exercise 4: Modifica delle immagini con modelli di diffusione Exercise 5: Modifica personalizzata di immagini Exercise 6: Image inpainting Exercise 7: Generazione di video Exercise 8: Crea un video!Exercise 9: Valutare le prestazioni della generazione video Exercise 10: Congratulazioni!