1. 학습
  2. /
  3. 강의
  4. /
  5. LangChain으로 배우는 Retrieval Augmented Generation (RAG)

Connected

연습 문제

문서 재귀 분할

단일 문자를 기준으로 분할하는 방법은 간단하고 예측 가능하지만, 종종 최적이 아닌 청크를 만듭니다. 이 연습 문제에서는 이전 연습에서 불러온 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 논문에 재귀적 문자 분할을 적용해 보겠습니다.

재귀적 문자 분할은 문자 목록을 순회하면서 각 문자를 기준으로 차례대로 분할하고, chunk_size 제한 아래에서 청크를 만들 수 있는지 확인하는 방식이라는 점을 기억하세요.

지침

100 XP
  • 문자 목록 ['\n', '.', ' ', '']을 순서대로 재귀적으로 분할하도록 LangChain의 재귀 문자 텍스트 스플리터를 정의하고, chunk_size는 75, chunk_overlap은 10으로 설정하세요.
  • 정의한 text_splitter와 적절한 메서드를 사용해 document를 분할하세요.