1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát triển ứng dụng LLM với LangChain

Connected

Bài tập

Tách HTML

Trong bài này, bạn sẽ tách một tệp HTML chứa sắc lệnh hành pháp về AI do Nhà Trắng (Mỹ) ban hành vào tháng 10/2023. Để giữ lại nhiều ngữ cảnh nhất trong các đoạn, bạn sẽ tách với chunk_size và chunk_overlap lớn hơn.

Tất cả các lớp của LangChain cần thiết để hoàn thành bài đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo UnstructuredHTMLLoader cho white_house_executive_order_nov_2023.html và nạp nó vào bộ nhớ.
  • Đặt chunk_size là 300 và chunk_overlap là 100.
  • Tạo RecursiveCharacterTextSplitter tách theo ký tự '.', rồi dùng phương thức .split_documents() để tách data và in ra các đoạn.