1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát triển ứng dụng LLM với LangChain

Connected

Bài tập

Tách đệ quy theo ký tự

Nhiều lập trình viên sử dụng bộ tách ký tự đệ quy để chia tài liệu dựa trên một danh sách ký tự xác định trước. Mặc định, các ký tự đó là đoạn văn, xuống dòng, khoảng trắng và chuỗi rỗng: ["\n\n", "\n", " ", ""].

Về cách hoạt động, bộ tách sẽ thử tách theo đoạn văn, kiểm tra xem các giá trị chunk_size và chunk_overlap đã đạt yêu cầu chưa; nếu chưa, nó tiếp tục tách theo câu, rồi theo từ, và cuối cùng là từng ký tự.

Thường thì bạn sẽ cần thử nghiệm với các giá trị chunk_size và chunk_overlap khác nhau để tìm thiết lập phù hợp với tài liệu của mình.

Hướng dẫn

100 XP
  • Import lớp RecursiveCharacterTextSplitter từ langchain_text_splitters.
  • Tạo một đối tượng RecursiveCharacterTextSplitter với separators=["\n", " ", ""], chunk_size=24, và chunk_overlap=10.
  • Dùng phương thức .split_text() để tách quote và in ra các mảnh cùng độ dài của từng mảnh.