MulaiMulai sekarang secara gratis

Tokenisasi himpunan data teks

Anda sedang mengerjakan riset pasar untuk sebuah situs perjalanan dan ingin menggunakan himpunan data yang ada untuk fine-tuning model yang akan membantu Anda mengklasifikasikan ulasan hotel. Anda memutuskan untuk menggunakan pustaka datasets.

Kelas AutoTokenizer telah diimpor sebelumnya dari transformers, dan load_dataset() telah diimpor sebelumnya dari datasets.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Tambahkan padding pada tokenizer untuk memproses teks sebagai batch berukuran sama.
  • Tokenisasi data teks menggunakan tokenizer GPT pra-latih dan fungsi yang telah didefinisikan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Edit dan Jalankan Kode