1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Retrieval Augmented Generation (RAG) với LangChain

Connected

Bài tập

Tách theo ngữ nghĩa

Tất cả các chiến lược tách mà bạn đã dùng đến giờ đều có cùng một điểm yếu: việc tách không xét ngữ cảnh xung quanh, nên ngữ cảnh rất dễ bị mất trong quá trình tách.

Trong bài tập này, bạn sẽ tạo và áp dụng một bộ tách văn bản theo ngữ nghĩa, một phương pháp thử nghiệm tiên tiến để tách văn bản dựa trên ý nghĩa ngữ nghĩa. Khi bộ tách phát hiện ý nghĩa của văn bản lệch quá một ngưỡng nhất định, nó sẽ thực hiện việc tách.

Hướng dẫn

100 XP
  • Khởi tạo mô hình embedding 'text-embedding-3-small' từ OpenAI.
  • Tạo một bộ tách văn bản theo ngữ nghĩa sử dụng vector gradients để xác định độ tương đồng ngữ nghĩa và dùng 0.8 làm ngưỡng để tách.
  • Tách document bằng bộ tách ngữ nghĩa này.