MulaiMulai sekarang secara gratis

Tokenisasi teks

Anda ingin memanfaatkan model pra-latih dari Hugging Face dan melakukan fine-tuning dengan data dari tim dukungan perusahaan Anda untuk membantu mengklasifikasikan interaksi berdasarkan risiko churn. Ini akan membantu tim memprioritaskan hal yang perlu ditangani terlebih dahulu dan bagaimana menanganinya, sehingga mereka lebih proaktif.

Siapkan data pelatihan dan pengujian untuk fine-tuning dengan melakukan tokenisasi teks.

Objek AutoTokenizer dan AutoModelForSequenceClassification telah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Pengantar LLM di Python

Lihat Kursus

Petunjuk latihan

  • Muat model pra-latih dan tokenizer sebagai persiapan untuk fine-tuning.
  • Lakukan tokenisasi pada train_data["interaction"] dan test_data["interaction"], dengan mengaktifkan padding dan pemangkasan sekuens.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Edit dan Jalankan Kode