Tokenisierung von Text mit AutoTokenizer
AutoTokenizer vereinfachen die Textvorbereitung, indem sie automatisch die Reinigung, Normalisierung und Tokenisierung übernehmen. Sie sorgen dafür, dass der Text so verarbeitet wird, wie es das Modell erwartet.
In dieser Übung erfährst du, wie der AutoTokenizer Text in Token umwandelt, die für maschinelles Lernen geeignet sind.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Anleitung zur Übung
- Importiere die benötigte Klasse von
transformers
, lade den Tokenizer mit der richtigen Methode und zerlege den eingegebenen Text in Token.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")