Tekst tokenizen

In deze oefening gebruik je de Flickr-gegevensset, met 30.000 afbeeldingen en bijbehorende bijschriften, om preprocessing-bewerkingen op tekst uit te voeren. Dit is nodig om modellen te kunnen gebruiken voor taken zoals tekstclassificatie. Dit is vooral handig voor multimodale toepassingen, waarbij Hugging Face-modellen kunnen controleren of een bijschrift geschikt is voor een bijbehorende afbeelding.

De gegevensset (dataset) is geladen en de AutoTokenizer is geïmporteerd.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Navigeer door de modelhub van Hugging Face en zet ruwe tekst-, audio- en visuele data om in AI-vriendelijke formaten. Leer hoe je de nieuwste en populairste modellen vindt voor taken zoals tekstgeneratie en benut de kracht van kant-en-klare pipelines.

Exercise 1: Navigeren door Hugging Face-modellen Exercise 2: Hoeveel modellen!?Exercise 3: Het populairste text-to-image-model vinden Exercise 4: Voorbewerking van verschillende modaliteiten Exercise 5: Tekst tokenizen

Huidige oefening

Exercise 6: Afbeeldingen preprocessen Exercise 7: Voorbewerking van audio Exercise 8: Pipelinetaken en evaluaties Exercise 9: Pipeline voor bijschriftgeneratie Exercise 10: Keyword-argumenten doorgeven Exercise 11: Model evalueren op een aangepaste gegevensset

Leer individuele modaliteiten beheersen met state-of-the-art modellen. Verdiep je in computervisie voor beeldclassificatie en segmentatie, ontdek spraakherkenning en tekst-naar-spraaksynthese, en leer effectieve fine-tuningtechnieken. Bouw praktische vaardigheden op met voorgetrainde modellen uit de transformers-bibliotheek van Hugging Face.

Exercise 1: Computer vision Exercise 2: Beeldclassificatie Exercise 3: Objectdetectie Exercise 4: Achtergrond van afbeelding verwijderen Exercise 5: Computer vision-modellen fine-tunen Exercise 6: CV fine-tuning: gegevensset voorbereiden Exercise 7: CV-finetuning: modelklassen Exercise 8: CV-fine-tuning: trainerconfiguratie Exercise 9: Spraakherkenning en audiogeneratie Exercise 10: Automatische spraakherkenning Exercise 11: Spraakembeddings maken Exercise 12: Audioreiniging (denoising)Exercise 13: Fijn-tunen van text-to-speech-modellen Exercise 14: Een text-to-speechmodel fine-tunen Exercise 15: Nieuwe spraak genereren

Leer visuele, tekstuele en audio-informatie te combineren voor rijkere AI-toepassingen. Beheers technieken zoals CLIP voor zero-shotclassificatie, bouw sentimentanalyses die kunnen zien én lezen, en maak emotiedetectors die gezichtsuitdrukkingen met stem combineren. Breng je AI-modellen verder dan één enkele modaliteit.

Exercise 1: Zero-shot beeldclassificatie Exercise 2: Zero-shot learning met CLIP Exercise 3: Geautomatiseerde kwaliteitsbeoordeling van bijschriften Exercise 4: Multimodale sentimentanalyse Exercise 5: Prompts schrijven voor Vision Language Models (VLM's)Exercise 6: Multi-modale sentimentclassificatie met Qwen Exercise 7: Zero-shot videoclassificatie Exercise 8: Audio uit video splitsen Exercise 9: Video-sentimentanalyse met CLIP CLAP

Maak van ideeën realiteit! Beheers geavanceerde AI-technieken om visuele content te genereren en te bewerken met tekstprompts. Maak verbluffende afbeeldingen, bewerk foto’s slim, en bouw krachtige vraag-antwoordsystemen voor afbeeldingen en documenten. Zet je creatieve visie om in digitale realiteit met multi-modale AI.

Exercise 1: Visual question answering (VQA)Exercise 2: VQA met Vision Language Transformers (ViLTs)Exercise 3: Document-VQA met LayoutLM Exercise 4: Afbeeldingen bewerken met diffusiemodellen Exercise 5: Aangepaste bewerkingen op afbeeldingen Exercise 6: Image inpainting Exercise 7: Video genereren Exercise 8: Bouw een video!Exercise 9: Prestaties van videogeneratie beoordelen Exercise 10: Gefeliciteerd!