토큰 기준으로 분할하기

RecursiveCharacterTextSplitter 또는 CharacterTextSplitter로 문서를 나누는 방법은 간편하고, 경우에 따라서는 성능도 좋습니다. 하지만 한 가지 단점이 있어요. 이들은 모델이 처리하는 단위인 토큰이 아니라 문자 단위를 기준으로 분할합니다.

이번 연습에서는 토큰 텍스트 스플리터를 사용해 문서를 분할해 보겠습니다. 각 청크의 토큰 수를 확인해, 모델의 컨텍스트 윈도우를 넘지 않도록 보장할 수 있어요. PDF 문서는 document로 로드되어 있습니다.

tiktoken과 필요한 모든 클래스는 이미 임포트되어 있어요.