Automatische Bewertung der Untertitelqualität

Du hast das Bild des Kleides richtig eingeordnet, aber wie gut war die Beschreibung?

Maa Fab Wickelkleid mit trendigem Design und leuchtenden Farben für einen eleganten Touch. Der Stoff ist total weich und bequem und hat ein tolles Design mit festem Ausschnitt. Ein Kleid mit weitem Ausschnitt, das perfekt in deine Garderobe passt.

Jetzt wirst du das CLIP-Modell nutzen, um mit dem CLIP-Score zu sagen, wie genau diese Beschreibung ist. Die Bildunterschrift (description), das Bild (image), die Klasse „ ToTensor “ und die Funktion „ clip_score() “ von torchmetrics wurden geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Anleitung zur Übung

Wandle das Bild in einen PyTorch-Tensor mit Intensitäten von 0 bis 255 um.
Mit der Funktion „ clip_score() “ kannst du die Qualität der Bildunterschrift checken, indem du „ image “ und „ description “ mit dem Modell „ openai/clip-vit-base-patch32 “ vergleichst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Convert the image to a PyTorch tensor
image = ____()(image)*____

# Use the clip_score function to assess the quality of the caption
score = ____(____, ____, "____")

print(f"CLIP score: {score}")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Schau dich im Hugging Face-Modell-Hub um und verwandle Rohdaten wie Text, Audio und Bilder in KI-freundliche Formate. Lerne, wie du die neuesten und beliebtesten Modelle für Aufgaben wie Textgenerierung findest und die Vorteile vorgefertigter Pipelines nutzt.

Exercise 1: Hugging Face-Modellnavigation Exercise 2: Wie viele Modelle!?Exercise 3: Das beliebteste Text-zu-Bild-Modell finden Exercise 4: Verschiedene Modalitäten vorbereiten Exercise 5: Text-Tokenisierung Exercise 6: Bildvorverarbeitung Exercise 7: Audio-Vorverarbeitung Exercise 8: Pipeline-Aufgaben und Bewertungen Exercise 9: Erstellung von Pipeline-Bildunterschriften Exercise 10: Übergabe von Schlüsselwortargumenten Exercise 11: Modellbewertung anhand eines benutzerdefinierten Datensatzes

Lerne, einzelne Modalitäten mit den neuesten Modellen zu meistern. Tauch ein in die Welt der Computervision für Bildklassifizierung und -segmentierung, probier Sprachsteuerung und Text-zu-Sprache-Synthese aus und lern effektive Feinabstimmungstechniken. Lerne praktische Fähigkeiten mit vorab trainierten Modellen aus der Transformers-Bibliothek von Hugging Face.

Exercise 1: Computer Vision Exercise 2: Bildklassifizierung Exercise 3: Objekterkennung Exercise 4: Bildhintergrund entfernen Exercise 5: Computer-Vision-Modelle optimieren Exercise 6: Lebenslauf optimieren: Datensatz vorbereiten Exercise 7: Lebenslauf optimieren: Modellklassen Exercise 8: Lebenslauf optimieren: Trainer-Einstellungen anpassen Exercise 9: Spracherkennung und Audioerzeugung Exercise 10: Automatische Spracherkennung Exercise 11: Spracheinbettungen erstellen Exercise 12: Audio-Rauschunterdrückung Exercise 13: Text-to-Speech-Modelle optimieren Exercise 14: Ein Text-zu-Sprache-Modell optimieren Exercise 15: Neue Sprache erfinden

Lerne, visuelle, Text- und Audio-Infos zu verbinden, um KI-Anwendungen noch besser zu machen. Lerne Techniken wie CLIP für Zero-Shot-Klassifizierung, baue Sentiment-Analysatoren, die sehen und lesen können, und entwickle Emotionsdetektoren, die Gesichtsausdrücke mit der Stimme kombinieren. Bring deine KI-Modelle über das Denken in einer einzigen Modalität hinaus.

Exercise 1: Bildklassifizierung ohne Trainingsdaten Exercise 2: Zero-Shot-Lernen mit CLIP Exercise 3: Automatische Bewertung der Untertitelqualität

Aktuelle Übung

Exercise 4: Multimodale Stimmungsanalyse Exercise 5: Vision Language Models (VLMs) anregen Exercise 6: Multimodale Sentimentklassifizierung mit Qwen Exercise 7: Video-Klassifizierung ohne Trainingsdaten Exercise 8: Video-Audio-Trennung Exercise 9: Video-Stimmungsanalyse mit CLIP CLAP

Ideen in die Tat umsetzen! Lerne die neuesten KI-Techniken, um mit Textvorlagen visuelle Inhalte zu erstellen und zu bearbeiten. Mach coole Bilder, bearbeite Fotos auf clevere Weise und baue starke Frage-Antwort-Systeme für Bilder und Dokumente auf. Mach deine kreativen Ideen mit multimodaler KI digital wahr.

Exercise 1: Visuelle Frage-Antwort-Beantwortung (VQA)Exercise 2: VQA mit Vision Language Transformers (ViLTs)Exercise 3: Dokument VQA mit LayoutLM Exercise 4: Bildbearbeitung mit Diffusionsmodellen Exercise 5: Individuelle Bildbearbeitung Exercise 6: Bildretusche Exercise 7: Generierung von Video Exercise 8: Mach ein Video!Exercise 9: Die Leistung der Videogenerierung checken Exercise 10: Glückwunsch!