Tokenisasi teks dengan AutoTokenizer
AutoTokenizer menyederhanakan penyiapan teks dengan secara otomatis menangani pembersihan, normalisasi, dan tokenisasi. Ini memastikan teks diproses sesuai dengan yang diharapkan oleh model.
Dalam latihan ini, Anda akan mengeksplorasi bagaimana AutoTokenizer mengubah teks menjadi token yang siap untuk tugas Machine Learning.
Latihan ini adalah bagian dari kursus
Bekerja dengan Hugging Face
Petunjuk latihan
- Impor kelas yang diperlukan dari
transformers, muat tokenizer menggunakan metode yang benar, dan pisahkan teks masukan menjadi token.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")