Lebenslauf optimieren: Datensatz vorbereiten

In dieser Übung machst du den Stanford Cars-Datensatz für das Training klar. Dazu wird die Bibliothek „ datasets “ verwendet, um den Datensatz aufzuteilen und die Vorverarbeitungstransformationen anzuwenden. Der Datensatz hat 8.000 beschriftete Bilder von 196 Automodellen:

ein Beispielauto aus dem Datensatz

Der Datensatz wurde als „ dataset “ geladen. Die Transformationen wurden für dich als „ transforms “ definiert und bestehen aus Renormierung und Typkonvertierung.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Anleitung zur Übung

Mach eine 80/20-Aufteilung für Training und Test aus „ dataset ” mit der Methode „ .train_test_split() ”.
Wende die Transformationen (transforms) auf data_splits an.
Zeichne das erweiterte Bild aus dem ersten Satz von Pixelwerten in „ dataset_transformed “ auf.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a train/test split within the HF dataset
data_splits = ____(test_size=____, seed=42)

# Apply the transformations
dataset_transformed = ____

# Plot the transformed image
plt.imshow(dataset_transformed["train"][0]["____"].permute(1, 2, 0))
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Schau dich im Hugging Face-Modell-Hub um und verwandle Rohdaten wie Text, Audio und Bilder in KI-freundliche Formate. Lerne, wie du die neuesten und beliebtesten Modelle für Aufgaben wie Textgenerierung findest und die Vorteile vorgefertigter Pipelines nutzt.

Exercise 1: Hugging Face-Modellnavigation Exercise 2: Wie viele Modelle!?Exercise 3: Das beliebteste Text-zu-Bild-Modell finden Exercise 4: Verschiedene Modalitäten vorbereiten Exercise 5: Text-Tokenisierung Exercise 6: Bildvorverarbeitung Exercise 7: Audio-Vorverarbeitung Exercise 8: Pipeline-Aufgaben und Bewertungen Exercise 9: Erstellung von Pipeline-Bildunterschriften Exercise 10: Keyword-Argumente übergeben Exercise 11: Modellbewertung anhand eines benutzerdefinierten Datensatzes

Lerne, einzelne Modalitäten mit den neuesten Modellen zu meistern. Tauch ein in die Welt der Computervision für Bildklassifizierung und -segmentierung, probier Sprachsteuerung und Text-zu-Sprache-Synthese aus und lern effektive Feinabstimmungstechniken. Lerne praktische Fähigkeiten mit vorab trainierten Modellen aus der Transformers-Bibliothek von Hugging Face.

Exercise 1: Computer Vision Exercise 2: Bildklassifizierung Exercise 3: Objekterkennung Exercise 4: Bildhintergrund entfernen Exercise 5: Computer-Vision-Modelle optimieren Exercise 6: Lebenslauf optimieren: Datensatz vorbereiten

Aktuelle Übung

Exercise 7: Lebenslauf optimieren: Modellklassen Exercise 8: Lebenslauf optimieren: Trainer-Einstellungen anpassen Exercise 9: Spracherkennung und Audioerzeugung Exercise 10: Automatische Spracherkennung Exercise 11: Spracheinbettungen erstellen Exercise 12: Audio-Rauschunterdrückung Exercise 13: Text-to-Speech-Modelle optimieren Exercise 14: Ein Text-zu-Sprache-Modell optimieren Exercise 15: Neue Sprache erfinden

Lerne, visuelle, Text- und Audio-Infos zu verbinden, um KI-Anwendungen noch besser zu machen. Lerne Techniken wie CLIP für Zero-Shot-Klassifizierung, baue Sentiment-Analysatoren, die sehen und lesen können, und entwickle Emotionsdetektoren, die Gesichtsausdrücke mit der Stimme kombinieren. Bring deine KI-Modelle über das Denken in einer einzigen Modalität hinaus.

Exercise 1: Bildklassifizierung ohne Trainingsdaten Exercise 2: Zero-Shot-Lernen mit CLIP Exercise 3: Automatisierte Qualitätsbewertung von Bildunterschriften Exercise 4: Multimodale Stimmungsanalyse Exercise 5: Vision Language Models (VLMs) anregen Exercise 6: Multimodale Sentimentklassifizierung mit Qwen Exercise 7: Video-Klassifizierung ohne Trainingsdaten Exercise 8: Video-Audio-Trennung Exercise 9: Video-Stimmungsanalyse mit CLIP und CLAP

Ideen in die Tat umsetzen! Lerne die neuesten KI-Techniken, um mit Textvorlagen visuelle Inhalte zu erstellen und zu bearbeiten. Mach coole Bilder, bearbeite Fotos auf clevere Weise und baue starke Frage-Antwort-Systeme für Bilder und Dokumente auf. Mach deine kreativen Ideen mit multimodaler KI digital wahr.

Exercise 1: Visuelle Frage-Antwort-Beantwortung (VQA)Exercise 2: VQA mit Vision Language Transformers (ViLTs)Exercise 3: Dokument VQA mit LayoutLM Exercise 4: Bildbearbeitung mit Diffusionsmodellen Exercise 5: Individuelle Bildbearbeitung Exercise 6: Bildretusche Exercise 7: Generierung von Video Exercise 8: Mach ein Video!Exercise 9: Die Leistung der Videogenerierung checken Exercise 10: Glückwunsch!