Tokenisasi teks
Anda ingin memanfaatkan model pra-latih dari Hugging Face dan melakukan fine-tuning dengan data dari tim dukungan perusahaan Anda untuk membantu mengklasifikasikan interaksi berdasarkan risiko churn. Ini akan membantu tim memprioritaskan hal yang perlu ditangani terlebih dahulu dan bagaimana menanganinya, sehingga mereka lebih proaktif.
Siapkan data pelatihan dan pengujian untuk fine-tuning dengan melakukan tokenisasi teks.
Objek AutoTokenizer dan AutoModelForSequenceClassification telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Pengantar LLM di Python
Petunjuk latihan
- Muat model pra-latih dan tokenizer sebagai persiapan untuk fine-tuning.
- Lakukan tokenisasi pada
train_data["interaction"]dantest_data["interaction"], dengan mengaktifkan padding dan pemangkasan sekuens.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)