1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 开发 LLM 应用

Connected

道练习

按字符递归分割

许多开发者会使用递归字符分割器,按照一组特定字符来拆分文档。默认字符为段落换行、换行、空格和空字符串:["\n\n", "\n", " ", ""]。

分割器会优先尝试按段落拆分,检查是否满足 chunk_size 与 chunk_overlap 的要求;如果不满足,就按句子、再按词,最后按单个字符继续拆分。

通常,您需要尝试不同的 chunk_size 和 chunk_overlap 取值,才能找到适合您文档的配置。

说明

100 XP
  • 从 langchain_text_splitters 导入 RecursiveCharacterTextSplitter 类。
  • 使用 separators=["\n", " ", ""]、chunk_size=24、chunk_overlap=10 创建一个 RecursiveCharacterTextSplitter 实例。
  • 使用 .split_text() 方法分割 quote,并打印分块及其长度。