Tokenisation de texte avec AutoTokenizer
Les AutoTokenizers simplifient la préparation des textes en gérant automatiquement le nettoyage, la normalisation et la tokenisation. Ils veillent à ce que le texte soit traité conformément aux attentes du modèle.
Dans cet exercice, découvrez comment AutoTokenizer transforme le texte en tokens prêts pour les tâches d'apprentissage automatique.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Instructions
- Importez la classe requise à partir de
transformers, chargez le tokenizer à l'aide de la méthode correcte et divisez le texte d'entrée en tokens.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")