1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 开发 LLM 应用

Connected

道练习

拆分 HTML

在本练习中,您将对一个包含美国白宫于 2023 年 10 月发布的 AI 行政令的 HTML 进行拆分。为尽可能保留片段中的上下文,您将使用较大的 chunk_size 和 chunk_overlap 值进行拆分。

完成本练习所需的所有 LangChain 类已为您预加载。

说明

100 XP
  • 为 white_house_executive_order_nov_2023.html 创建一个 UnstructuredHTMLLoader,并将其加载到内存。
  • 将 chunk_size 设为 300,chunk_overlap 设为 100。
  • 创建一个以 '.' 字符进行拆分的 RecursiveCharacterTextSplitter,使用 .split_documents() 方法对 data 进行拆分并打印片段。