1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Retrieval Augmented Generation (RAG) với LangChain

Connected

Bài tập

Tải tệp HTML cho RAG

Bạn có thể tải tài liệu từ rất nhiều định dạng khác nhau, bao gồm cả những định dạng phức tạp như HTML.

Nếu bạn chưa quen với HTML, đây là ngôn ngữ đánh dấu dùng để tạo trang web. Ví dụ nhỏ dưới đây:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Trong bài tập này, bạn sẽ tải một tệp HTML chứa một trang bài viết trên blog của DataCamp. Các lớp cần thiết đã được nhập sẵn cho bạn.

Hướng dẫn

100 XP
  • Dùng lớp UnstructuredHTMLLoader để tải tệp datacamp-blog.html trong thư mục hiện tại.
  • Tải các tài liệu vào bộ nhớ.
  • In phần nội dung trang của tài liệu đầu tiên.
  • In metadata của tài liệu đầu tiên.