1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 的 Retrieval Augmented Generation (RAG)

Connected

道练习

按 token 分割

使用 RecursiveCharacterTextSplitter 或 CharacterTextSplitter 来分割文档很方便,在某些情况下也能取得不错的效果,但它们有一个缺点:分割的基本单位是字符,而不是模型实际处理的 token。

在本练习中,您将使用基于 token 的文本分割器来分割文档,从而可以核对每个块的 token 数,确保不超过模型的上下文窗口。一个 PDF 文档已作为 document 加载。

tiktoken 和所有必要的类都已为您导入。

说明

100 XP
  • 从 tiktoken 获取 gpt-4o-mini 的编码,以便检查每个块的 token 数量。
  • 使用 GPT-4o-Mini 的 encoding 创建一个按 token 数分割的文本分割器。
  • 使用 token_splitter 将存储在 document 中的 PDF 分割成多个块。