1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 开发 LLM 应用

Connected

道练习

按字符分割

在实现检索增强生成(RAG)时,一个关键步骤是将文档拆分为若干片段,并存入向量数据库。

LangChain 提供了多种分割策略,复杂度各不相同。本练习中,您将实现一种「按字符分割」的文本分割器,它依据字符来切分文档,并以字符数来衡量片段长度。

请记住:没有放之四海而皆准的分割策略。为了契合您的使用场景,您可能需要多做几次尝试与对比。

说明

100 XP
  • 从 langchain_text_splitters 导入 CharacterTextSplitter 类。
  • 使用 separator="\n"、chunk_size=24、chunk_overlap=10 创建一个 CharacterTextSplitter 实例。
  • 使用 .split_text() 方法分割 quote,并打印各片段及其长度。