Voorbewerking van audio

In deze oefening leer je hoe je de samplingfrequentie van audiodata aanpast en hoe je een automatische preprocessor gebruikt. Je werkt met het VCTK Corpus, dat ongeveer 44 uur aan spraakdata bevat, ingesproken door 110 Engelstalige sprekers met verschillende accenten.

De dataset is al geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Oefeninstructies

Resample de audio in de gegevensset naar een frequentie van 16.000 Hz met de methode .cast_column().
Laad de audioprocessor met het voorgetrainde model openai/whisper-small.
Verwerk de audiodata van het eerste datapunt voor, met dezelfde samplingfrequentie en padding=True.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Navigeer door de modelhub van Hugging Face en zet ruwe tekst-, audio- en visuele data om in AI-vriendelijke formaten. Leer hoe je de nieuwste en populairste modellen vindt voor taken zoals tekstgeneratie en benut de kracht van kant-en-klare pipelines.

Exercise 1: Navigeren door Hugging Face-modellen Exercise 2: Hoeveel modellen!?Exercise 3: Het populairste text-to-image-model vinden Exercise 4: Voorbewerking van verschillende modaliteiten Exercise 5: Tekst tokenizen Exercise 6: Afbeeldingen preprocessen Exercise 7: Voorbewerking van audio

Huidige oefening

Exercise 8: Pipelinetaken en evaluaties Exercise 9: Pipeline voor bijschriftgeneratie Exercise 10: Keyword-argumenten doorgeven Exercise 11: Model evalueren op een aangepaste gegevensset

Leer individuele modaliteiten beheersen met state-of-the-art modellen. Verdiep je in computervisie voor beeldclassificatie en segmentatie, ontdek spraakherkenning en tekst-naar-spraaksynthese, en leer effectieve fine-tuningtechnieken. Bouw praktische vaardigheden op met voorgetrainde modellen uit de transformers-bibliotheek van Hugging Face.

Exercise 1: Computer vision Exercise 2: Beeldclassificatie Exercise 3: Objectdetectie Exercise 4: Achtergrond van afbeelding verwijderen Exercise 5: Computer vision-modellen fine-tunen Exercise 6: CV fine-tuning: gegevensset voorbereiden Exercise 7: CV-finetuning: modelklassen Exercise 8: CV-fine-tuning: trainerconfiguratie Exercise 9: Spraakherkenning en audiogeneratie Exercise 10: Automatische spraakherkenning Exercise 11: Spraakembeddings maken Exercise 12: Audioreiniging (denoising)Exercise 13: Fijn-tunen van text-to-speech-modellen Exercise 14: Een text-to-speechmodel fine-tunen Exercise 15: Nieuwe spraak genereren

Leer visuele, tekstuele en audio-informatie te combineren voor rijkere AI-toepassingen. Beheers technieken zoals CLIP voor zero-shotclassificatie, bouw sentimentanalyses die kunnen zien én lezen, en maak emotiedetectors die gezichtsuitdrukkingen met stem combineren. Breng je AI-modellen verder dan één enkele modaliteit.

Exercise 1: Zero-shot beeldclassificatie Exercise 2: Zero-shot learning met CLIP Exercise 3: Geautomatiseerde kwaliteitsbeoordeling van bijschriften Exercise 4: Multimodale sentimentanalyse Exercise 5: Prompts schrijven voor Vision Language Models (VLM's)Exercise 6: Multi-modale sentimentclassificatie met Qwen Exercise 7: Zero-shot videoclassificatie Exercise 8: Audio uit video splitsen Exercise 9: Video-sentimentanalyse met CLIP CLAP

Maak van ideeën realiteit! Beheers geavanceerde AI-technieken om visuele content te genereren en te bewerken met tekstprompts. Maak verbluffende afbeeldingen, bewerk foto’s slim, en bouw krachtige vraag-antwoordsystemen voor afbeeldingen en documenten. Zet je creatieve visie om in digitale realiteit met multi-modale AI.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA met Vision Language Transformers (ViLTs)Exercise 3: Document-VQA met LayoutLM Exercise 4: Afbeeldingen bewerken met diffusiemodellen Exercise 5: Aangepaste bewerkingen op afbeeldingen Exercise 6: Image inpainting Exercise 7: Video genereren Exercise 8: Bouw een video!Exercise 9: Prestaties van videogeneratie beoordelen Exercise 10: Gefeliciteerd!