1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn LLMs trong Python

Connected

Bài tập

Ánh xạ quá trình tokenization

Giờ bạn muốn thử kiểm soát chặt chẽ hơn việc tokenization và muốn thử tokenize dữ liệu theo từng hàng hoặc theo lô. Cách này cũng sẽ trả về một đối tượng DataSet, thứ bạn cần cho việc huấn luyện.

tokenizer đã được nạp sẵn cho bạn cùng với dữ liệu dưới dạng train_data và test_data.

Hướng dẫn 1/2

undefined XP
  • 1
    • Hoàn thiện tokenize_function để trả về các tensor đã được tokenize với việc cắt ngắn chuỗi và tokenize train_data theo lô.
  • 2
    • Áp dụng tokenize_function cho train_data và tokenize theo từng hàng.