Mulai sekarangMulai gratis

Tokenisasi teks dengan AutoTokenizer

AutoTokenizer menyederhanakan penyiapan teks dengan secara otomatis menangani pembersihan, normalisasi, dan tokenisasi. Ini memastikan teks diproses sesuai dengan yang diharapkan oleh model.

Dalam latihan ini, Anda akan mengeksplorasi bagaimana AutoTokenizer mengubah teks menjadi token yang siap untuk tugas Machine Learning.

Latihan ini merupakan bagian dari kursus

Bekerja dengan Hugging Face

Lihat Kursus

Instruksi latihan

  • Impor kelas yang diperlukan dari transformers, muat tokenizer menggunakan metode yang benar, dan pisahkan teks masukan menjadi token.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Edit dan Jalankan Kode