Text-Tokenisierung

In dieser Übung wirst du den Flickr-Datensatz mit 30.000 Bildern und dazugehörigen Bildunterschriften verwenden, um Vorverarbeitungsoperationen am Text durchzuführen. Das ist wichtig, damit Modelle das für Sachen wie Textklassifizierung nutzen können. Das ist besonders praktisch für multimodale Anwendungen, wo Hugging Face-Modelle genutzt werden können, um zu checken, ob eine Bildunterschrift zu einem Bild passt.

Der Datensatz (dataset) ist geladen und die AutoTokenizer wurde importiert.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Schau dich im Hugging Face-Modell-Hub um und verwandle Rohdaten wie Text, Audio und Bilder in KI-freundliche Formate. Lerne, wie du die neuesten und beliebtesten Modelle für Aufgaben wie Textgenerierung findest und die Vorteile vorgefertigter Pipelines nutzt.

Exercise 1: Hugging Face-Modellnavigation Exercise 2: Wie viele Modelle!?Exercise 3: Das beliebteste Text-zu-Bild-Modell finden Exercise 4: Verschiedene Modalitäten vorbereiten Exercise 5: Text-Tokenisierung

Aktuelle Übung

Exercise 6: Bildvorverarbeitung Exercise 7: Audio-Vorverarbeitung Exercise 8: Pipeline-Aufgaben und Bewertungen Exercise 9: Erstellung von Pipeline-Bildunterschriften Exercise 10: Übergabe von Schlüsselwortargumenten Exercise 11: Modellbewertung anhand eines benutzerdefinierten Datensatzes

Lerne, einzelne Modalitäten mit den neuesten Modellen zu meistern. Tauch ein in die Welt der Computervision für Bildklassifizierung und -segmentierung, probier Sprachsteuerung und Text-zu-Sprache-Synthese aus und lern effektive Feinabstimmungstechniken. Lerne praktische Fähigkeiten mit vorab trainierten Modellen aus der Transformers-Bibliothek von Hugging Face.

Exercise 1: Computer Vision Exercise 2: Bildklassifizierung Exercise 3: Objekterkennung Exercise 4: Bildhintergrund entfernen Exercise 5: Computer-Vision-Modelle optimieren Exercise 6: Lebenslauf optimieren: Datensatz vorbereiten Exercise 7: Lebenslauf optimieren: Modellklassen Exercise 8: Lebenslauf optimieren: Trainer-Einstellungen anpassen Exercise 9: Spracherkennung und Audioerzeugung Exercise 10: Automatische Spracherkennung Exercise 11: Spracheinbettungen erstellen Exercise 12: Audio-Rauschunterdrückung Exercise 13: Text-to-Speech-Modelle optimieren Exercise 14: Ein Text-zu-Sprache-Modell optimieren Exercise 15: Neue Sprache erfinden

Lerne, visuelle, Text- und Audio-Infos zu verbinden, um KI-Anwendungen noch besser zu machen. Lerne Techniken wie CLIP für Zero-Shot-Klassifizierung, baue Sentiment-Analysatoren, die sehen und lesen können, und entwickle Emotionsdetektoren, die Gesichtsausdrücke mit der Stimme kombinieren. Bring deine KI-Modelle über das Denken in einer einzigen Modalität hinaus.

Exercise 1: Bildklassifizierung ohne Trainingsdaten Exercise 2: Zero-Shot-Lernen mit CLIP Exercise 3: Automatische Bewertung der Untertitelqualität Exercise 4: Multimodale Stimmungsanalyse Exercise 5: Vision Language Models (VLMs) anregen Exercise 6: Multimodale Sentimentklassifizierung mit Qwen Exercise 7: Video-Klassifizierung ohne Trainingsdaten Exercise 8: Video-Audio-Trennung Exercise 9: Video-Stimmungsanalyse mit CLIP CLAP

Ideen in die Tat umsetzen! Lerne die neuesten KI-Techniken, um mit Textvorlagen visuelle Inhalte zu erstellen und zu bearbeiten. Mach coole Bilder, bearbeite Fotos auf clevere Weise und baue starke Frage-Antwort-Systeme für Bilder und Dokumente auf. Mach deine kreativen Ideen mit multimodaler KI digital wahr.

Exercise 1: Visuelle Frage-Antwort-Beantwortung (VQA)Exercise 2: VQA mit Vision Language Transformers (ViLTs)Exercise 3: Dokument VQA mit LayoutLM Exercise 4: Bildbearbeitung mit Diffusionsmodellen Exercise 5: Individuelle Bildbearbeitung Exercise 6: Bildretusche Exercise 7: Generierung von Video Exercise 8: Mach ein Video!Exercise 9: Die Leistung der Videogenerierung checken Exercise 10: Glückwunsch!