Tokeniser du texte avec AutoTokenizer
Les AutoTokenizers simplifient la préparation du texte en gérant automatiquement le nettoyage, la normalisation et la tokenisation. Ils garantissent que le texte est traité exactement comme le modèle l’attend.
Dans cet exercice, découvrez comment AutoTokenizer transforme un texte en jetons prêts pour des tâches de Machine Learning.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Instructions
- Importez la classe nécessaire depuis
transformers, chargez le tokenizer avec la bonne méthode, et découpez le texte d’entrée en jetons.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")