Bildretusche

Lass uns mal die multimodale Bildgenerierung auf den Kopf stellen, indem wir sie mit Bildretusche kombinieren. Du wirst das Selbstporträt von Van Gogh so bearbeiten, dass er einen schwarzen Bart bekommt. Dazu benutzt du den „ StableDiffusionControlNetInpaintPipeline “ und eine Bildmaske, die ich für dich erstellt habe (mask_image):

Berühmtes Gemälde und Maske von Van Gogh

Hinweis: Die Schlussfolgerungen zu Diffusionsmodellen können eine Weile dauern, deshalb haben wir das erstellte Bild schon mal für dich geladen. Das Ausführen verschiedener Eingabeaufforderungen erzeugt keine neuen Bilder.

Die Originalversion des Bildes wurde als „ init_image “ hochgeladen, zusammen mit einem Kontrollbild (control_image), das mit der Funktion „ make_inpaint_condition() “ aus dem Video erstellt wurde.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Anleitung zur Übung

Führ die Pipeline mit einem Befehl aus, der einen schwarzen Bart erzeugt, indem du „ num_inference_steps=40 “ angibst und die folgenden Parameter übergibst: „ init_image “, „ mask_image “ und „ control_image “.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Run the pipeline requesting a black beard
output = pipe(
    ____,
    num_inference_steps=____,
    eta=1.0,
    image=____,
    mask_image=____,
    control_image=____
)

plt.imshow(output.images[0])
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Schau dich im Hugging Face-Modell-Hub um und verwandle Rohdaten wie Text, Audio und Bilder in KI-freundliche Formate. Lerne, wie du die neuesten und beliebtesten Modelle für Aufgaben wie Textgenerierung findest und die Vorteile vorgefertigter Pipelines nutzt.

Exercise 1: Hugging Face-Modellnavigation Exercise 2: Wie viele Modelle!?Exercise 3: Das beliebteste Text-zu-Bild-Modell finden Exercise 4: Verschiedene Modalitäten vorbereiten Exercise 5: Text-Tokenisierung Exercise 6: Bildvorverarbeitung Exercise 7: Audio-Vorverarbeitung Exercise 8: Pipeline-Aufgaben und Bewertungen Exercise 9: Erstellung von Pipeline-Bildunterschriften Exercise 10: Übergabe von Schlüsselwortargumenten Exercise 11: Modellbewertung anhand eines benutzerdefinierten Datensatzes

Lerne, einzelne Modalitäten mit den neuesten Modellen zu meistern. Tauch ein in die Welt der Computervision für Bildklassifizierung und -segmentierung, probier Sprachsteuerung und Text-zu-Sprache-Synthese aus und lern effektive Feinabstimmungstechniken. Lerne praktische Fähigkeiten mit vorab trainierten Modellen aus der Transformers-Bibliothek von Hugging Face.

Exercise 1: Computer Vision Exercise 2: Bildklassifizierung Exercise 3: Objekterkennung Exercise 4: Bildhintergrund entfernen Exercise 5: Computer-Vision-Modelle optimieren Exercise 6: Lebenslauf optimieren: Datensatz vorbereiten Exercise 7: Lebenslauf optimieren: Modellklassen Exercise 8: Lebenslauf optimieren: Trainer-Einstellungen anpassen Exercise 9: Spracherkennung und Audioerzeugung Exercise 10: Automatische Spracherkennung Exercise 11: Spracheinbettungen erstellen Exercise 12: Audio-Rauschunterdrückung Exercise 13: Text-to-Speech-Modelle optimieren Exercise 14: Ein Text-zu-Sprache-Modell optimieren Exercise 15: Neue Sprache erfinden

Lerne, visuelle, Text- und Audio-Infos zu verbinden, um KI-Anwendungen noch besser zu machen. Lerne Techniken wie CLIP für Zero-Shot-Klassifizierung, baue Sentiment-Analysatoren, die sehen und lesen können, und entwickle Emotionsdetektoren, die Gesichtsausdrücke mit der Stimme kombinieren. Bring deine KI-Modelle über das Denken in einer einzigen Modalität hinaus.

Exercise 1: Bildklassifizierung ohne Trainingsdaten Exercise 2: Zero-Shot-Lernen mit CLIP Exercise 3: Automatische Bewertung der Untertitelqualität Exercise 4: Multimodale Stimmungsanalyse Exercise 5: Vision Language Models (VLMs) anregen Exercise 6: Multimodale Sentimentklassifizierung mit Qwen Exercise 7: Video-Klassifizierung ohne Trainingsdaten Exercise 8: Video-Audio-Trennung Exercise 9: Video-Stimmungsanalyse mit CLIP CLAP

Ideen in die Tat umsetzen! Lerne die neuesten KI-Techniken, um mit Textvorlagen visuelle Inhalte zu erstellen und zu bearbeiten. Mach coole Bilder, bearbeite Fotos auf clevere Weise und baue starke Frage-Antwort-Systeme für Bilder und Dokumente auf. Mach deine kreativen Ideen mit multimodaler KI digital wahr.

Exercise 1: Visuelle Frage-Antwort-Beantwortung (VQA)Exercise 2: VQA mit Vision Language Transformers (ViLTs)Exercise 3: Dokument VQA mit LayoutLM Exercise 4: Bildbearbeitung mit Diffusionsmodellen Exercise 5: Individuelle Bildbearbeitung Exercise 6: Bildretusche

Aktuelle Übung

Exercise 7: Generierung von Video Exercise 8: Mach ein Video!Exercise 9: Die Leistung der Videogenerierung checken Exercise 10: Glückwunsch!