LoslegenKostenlos loslegen

Bildvorverarbeitung

In dieser Übung wirst du den Flickr-Datensatz mit 30.000 Bildern und dazugehörigen Bildunterschriften verwenden, um Vorverarbeitungsoperationen an Bildern durchzuführen. Diese Vorverarbeitung ist nötig, damit die Bilddaten für die Inferenz mit Hugging Face-Modulaufgaben, wie zum Beispiel die Textgenerierung aus Bildern, verwendet werden können. In diesem Fall erstellst du eine Bildunterschrift für dieses Bild:

Foto von 2 Personen, von denen eine Gitarre spielt

Der Datensatz (dataset) wurde mit folgender Struktur geladen:

Dataset({
    features: ['image', 'caption', 'sentids', 'split', 'img_id', 'filename'],
    num_rows: 10
})

Das Bildbeschriftungsmodell (model) wurde geladen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Lade das Bild aus dem Element mit dem Index „ 5 ” des Datensatzes.
  • Lade den Bildprozessor (BlipProcessor) des vortrainierten Modells: Salesforce/blip-image-captioning-base.
  • Führ den Prozessor auf „ image “ aus und gib dabei an, dass PyTorch-Tensoren (pt) gebraucht werden.
  • Verwende die Methode „ .generate() “, um eine Bildunterschrift mit dem „ model “ zu erstellen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the image from index 5 of the dataset
image = dataset[5]["____"]

# Load the image processor of the pretrained model
processor = ____.____("Salesforce/blip-image-captioning-base")

# Preprocess the image
inputs = ____(images=____, return_tensors="pt")

# Generate a caption using the model
output = ____(**inputs)
print(f'Generated caption: {processor.decode(output[0])}')
print(f'Original caption: {dataset[5]["caption"][0]}')
Code bearbeiten und ausführen