LoslegenKostenlos loslegen

Tokenisierung von Text mit AutoTokenizer

AutoTokenizer vereinfachen die Textvorbereitung, indem sie automatisch die Reinigung, Normalisierung und Tokenisierung übernehmen. Sie sorgen dafür, dass der Text so verarbeitet wird, wie es das Modell erwartet.

In dieser Übung erfährst du, wie der AutoTokenizer Text in Token umwandelt, die für maschinelles Lernen geeignet sind.

Diese Übung ist Teil des Kurses

Arbeiten mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Importiere die benötigte Klasse von transformers, lade den Tokenizer mit der richtigen Methode und zerlege den eingegebenen Text in Token.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Code bearbeiten und ausführen