Text mit AutoTokenizer tokenisieren
AutoTokenizer vereinfachen die Textvorbereitung, indem sie die Bereinigung, Normalisierung und Tokenisierung automatisch übernehmen. So wird der Text genau so verarbeitet, wie es das Modell erwartet.
In dieser Übung sehen wir uns an, wie AutoTokenizer Text in Tokens umwandeln und ihn so für Machine‑Learning‑Aufgaben vorbereiten.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Anleitung zur Übung
- Importiere die benötigte Klasse aus
transformers, lade den Tokenizer mit der richtigen Methode und teile den Eingabetext in Tokens auf.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")