Tokenisation de texte
Dans cet exercice, vous allez utiliser le jeu de données flickr, qui contient 30 000 images et leurs légendes associées, pour effectuer des opérations de prétraitement sur du texte. Cela est nécessaire pour être utilisé par des modèles pour des tâches comme la classification de texte. C’est particulièrement utile pour les applications multi-modales, où les modèles Hugging Face peuvent servir à vérifier la pertinence d’une légende pour une image donnée.
Le jeu de données (dataset) a été chargé et AutoTokenizer a été importé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)