CommencerCommencer gratuitement

Tokenisation de texte

Dans cet exercice, vous allez utiliser le jeu de données flickr, qui contient 30 000 images et leurs légendes associées, pour effectuer des opérations de prétraitement sur du texte. Cela est nécessaire pour être utilisé par des modèles pour des tâches comme la classification de texte. C’est particulièrement utile pour les applications multi-modales, où les modèles Hugging Face peuvent servir à vérifier la pertinence d’une légende pour une image donnée.

Le jeu de données (dataset) a été chargé et AutoTokenizer a été importé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)
Modifier et exécuter le code