Tokenisasi himpunan data teks
Anda sedang mengerjakan riset pasar untuk sebuah situs perjalanan dan ingin menggunakan himpunan data yang ada untuk fine-tuning model yang akan membantu Anda mengklasifikasikan ulasan hotel. Anda memutuskan untuk menggunakan pustaka datasets.
Kelas AutoTokenizer telah diimpor sebelumnya dari transformers, dan load_dataset() telah diimpor sebelumnya dari datasets.
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Tambahkan padding pada tokenizer untuk memproses teks sebagai batch berukuran sama.
- Tokenisasi data teks menggunakan tokenizer GPT pra-latih dan fungsi yang telah didefinisikan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)