1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 的 Retrieval Augmented Generation (RAG)

Connected

道练习

递归地拆分文档

按单个字符拆分简单且可预测,但常常会产生不理想的块。在本练习中,您将对之前加载的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》应用递归字符拆分。

回忆一下,递归字符拆分会遍历一个字符列表,依次按每个字符进行拆分,以检查是否能在 chunk_size 限制之下生成块。

说明

100 XP
  • 定义一个 LangChain 递归字符文本分割器,使用字符列表 ['\n', '.', ' ', ''] 进行递归拆分,chunk_size 设为 75,chunk_overlap 设为 10。
  • 使用您定义的 text_splitter 和合适的方法来拆分 document。