Text-Tokenisierung
In dieser Übung wirst du den Flickr-Datensatz mit 30.000 Bildern und dazugehörigen Bildunterschriften verwenden, um Vorverarbeitungsoperationen am Text durchzuführen. Das ist wichtig, damit Modelle das für Sachen wie Textklassifizierung nutzen können. Das ist besonders praktisch für multimodale Anwendungen, wo Hugging Face-Modelle genutzt werden können, um zu checken, ob eine Bildunterschrift zu einem Bild passt.
Der Datensatz (dataset) ist geladen und die AutoTokenizer wurde importiert.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)