Tách theo ký tự

Một bước quan trọng khi triển khai Retrieval Augmented Generation (RAG) là tách tài liệu thành các khối (chunk) để lưu trữ trong cơ sở dữ liệu vector.

Có nhiều chiến lược tách khác nhau trong LangChain, một số phức tạp hơn số còn lại. Trong bài tập này, bạn sẽ triển khai một bộ tách văn bản theo ký tự (character text splitter), tách tài liệu dựa trên ký tự và đo độ dài khối theo số lượng ký tự.

Hãy nhớ rằng không có chiến lược tách “chuẩn” cho mọi trường hợp; bạn có thể cần thử nghiệm vài cách để tìm ra phương án phù hợp với bài toán của mình.

Import lớp CharacterTextSplitter từ langchain_text_splitters.
Tạo một instance CharacterTextSplitter với separator="\n", chunk_size=24, và chunk_overlap=10.
Dùng phương thức .split_text() để tách quote và in ra các khối cùng độ dài của từng khối.

Bài tập

Tách theo ký tự

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập