CommencerCommencer gratuitement

Tokenisation de texte avec AutoTokenizer

Les AutoTokenizers simplifient la préparation du texte en gérant automatiquement le nettoyage, la normalisation et la tokenisation. Ils garantissent que le texte est traité conformément aux attentes du modèle.

Dans cet exercice, découvrez comment AutoTokenizer transforme le texte en jetons prêts à être utilisés pour des tâches d'apprentissage automatique.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Instructions

  • Importez la classe requise à partir de transformers, chargez le tokenizer en utilisant la méthode appropriée, puis divisez le texte d'entrée en tokens.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Modifier et exécuter le code