1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Retrieval Augmented Generation (RAG) với LangChain

Connected

Bài tập

Tách tài liệu đệ quy

Tách theo một ký tự đơn lẻ thì đơn giản và dễ đoán, nhưng thường tạo ra các phần (chunk) chưa tối ưu. Trong bài này, bạn sẽ áp dụng kỹ thuật tách ký tự đệ quy để tách bài báo Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks mà bạn đã tải ở bài trước.

Nhắc lại: kỹ thuật tách ký tự đệ quy sẽ lặp qua một danh sách ký tự, lần lượt tách theo từng ký tự để xem có thể tạo các phần nhỏ hơn giới hạn chunk_size hay không.

Hướng dẫn

100 XP
  • Định nghĩa một bộ tách văn bản ký tự đệ quy của LangChain để tách đệ quy theo danh sách ký tự ['\n', '.', ' ', ''] với kích thước phần 75 và phần chồng lắp 10.
  • Tách document bằng text_splitter bạn đã định nghĩa và phương thức phù hợp.