MulaiMulai sekarang secara gratis

Tokenisasi teks dengan AutoTokenizer

AutoTokenizer menyederhanakan penyiapan teks dengan secara otomatis menangani pembersihan, normalisasi, dan tokenisasi. Ini memastikan teks diproses sesuai dengan yang diharapkan oleh model.

Dalam latihan ini, Anda akan mengeksplorasi bagaimana AutoTokenizer mengubah teks menjadi token yang siap untuk tugas Machine Learning.

Latihan ini adalah bagian dari kursus

Bekerja dengan Hugging Face

Lihat Kursus

Petunjuk latihan

  • Impor kelas yang diperlukan dari transformers, muat tokenizer menggunakan metode yang benar, dan pisahkan teks masukan menjadi token.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Edit dan Jalankan Kode