Aan de slagGa gratis aan de slag

Tekst tokenizen

In deze oefening gebruik je de Flickr-gegevensset, met 30.000 afbeeldingen en bijbehorende bijschriften, om preprocessing-bewerkingen op tekst uit te voeren. Dit is nodig om modellen te kunnen gebruiken voor taken zoals tekstclassificatie. Dit is vooral handig voor multimodale toepassingen, waarbij Hugging Face-modellen kunnen controleren of een bijschrift geschikt is voor een bijbehorende afbeelding.

De gegevensset (dataset) is geladen en de AutoTokenizer is geïmporteerd.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)
Code bewerken en uitvoeren