1. Uczyć się
  2. /
  3. Courses
  4. /
  5. LangChain で学ぶ Retrieval Augmented Generation (RAG)

Connected

Exercise

トークン単位での分割

RecursiveCharacterTextSplitter や CharacterTextSplitter を使った文書分割は手軽で、状況によっては高い性能を発揮しますが、1 つ弱点があります。モデルが処理する単位であるトークンではなく、文字を基準に分割してしまう点です。

この演習では、トークンベースのテキストスプリッターを使って文書を分割し、各チャンクのトークン数を確認して、モデルのコンテキストウィンドウを超えないようにします。PDF ドキュメントは document として読み込まれています。

tiktoken と必要なクラスはすでにインポート済みです。

Instrukcje

100 XP
  • 各チャンクのトークン数を確認できるように、tiktoken から gpt-4o-mini のエンコーディングを取得します。
  • GPT-4o-Mini の encoding を用いて、トークン数に基づいて分割するテキストスプリッターを作成します。
  • document に保存されている PDF を、token_splitter を使ってチャンクに分割します。