1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 LangChain 的 Retrieval Augmented Generation (RAG)

Connected

道练习

为 RAG 加载 HTML 文件

可以从多种不同格式加载文档,包括像 HTML 这样较复杂的格式。

如果您不熟悉 HTML,它是一种用于创建网页的标记语言。下面是一个小示例:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

在本练习中,您将加载一个包含 DataCamp 博客文章网页的 HTML 文件。所需的类已经为您导入好了。

说明

100 XP
  • 使用 UnstructuredHTMLLoader 类加载当前目录下的 datacamp-blog.html 文件。
  • 将文档加载到内存中。
  • 打印第 1 个文档的页面内容。
  • 打印第 1 个文档的元数据。