1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Retrieval Augmented Generation (RAG) với LangChain

Connected

Bài tập

Tách theo token

Tách tài liệu bằng RecursiveCharacterTextSplitter hoặc CharacterTextSplitter khá tiện và đôi khi cho hiệu năng tốt, nhưng có một hạn chế: chúng tách theo ký tự làm đơn vị cơ bản, thay vì token — đơn vị mà mô hình xử lý.

Trong bài tập này, bạn sẽ tách tài liệu bằng một bộ tách văn bản theo token, để bạn có thể kiểm tra số lượng token trong mỗi đoạn và đảm bảo chúng không vượt quá cửa sổ ngữ cảnh của mô hình. Một tài liệu PDF đã được nạp vào biến document.

tiktoken và tất cả các lớp cần thiết đã được nhập sẵn cho bạn.

Hướng dẫn

100 XP
  • Lấy encoding cho gpt-4o-mini từ tiktoken để bạn có thể kiểm tra số token trong mỗi đoạn.
  • Tạo một bộ tách văn bản để tách dựa trên số token, sử dụng encoding của GPT-4o-Mini.
  • Tách PDF trong document thành các đoạn bằng token_splitter.