准备文档与向量数据库

在接下来的几个练习中，您将构建一个完整的 RAG 工作流，与一份 PDF 文档进行对话。该文档是 Balaguer 等人在 2024 年发表的论文《RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》。流程包括：将文档切分为小块、将其存入向量数据库、定义一个提示以连接检索到的文档与用户输入，并构建一个检索链，让 LLM 访问这些外部数据。

在本练习中，您将为存储做好文档准备，并将其导入 Chroma 向量数据库。您将使用 RecursiveCharacterTextSplitter 对 PDF 进行切块，并使用 OpenAI 的嵌入函数将其导入 Chroma 向量数据库。与本课程其余部分一致，您无需提供自己的 OpenAI API 密钥。

以下类已为您导入：RecursiveCharacterTextSplitter、Chroma 和 OpenAIEmbeddings。