1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain で開発する LLM アプリケーション

Connected

演習

文字ごとの再帰的な分割

多くの開発者は、特定の文字リストに基づいてドキュメントを分割する再帰的な文字スプリッターを利用しています。デフォルトでは、これらの文字は段落・改行・スペース・空文字です: ["\n\n", "\n", " ", ""]。

このスプリッターは、まず段落で分割し、chunk_size と chunk_overlap の条件を満たすかを確認し、満たさない場合は文、次に単語、最後に個々の文字へと段階的に分割します。

多くの場合、ドキュメントに適した値を見つけるために、chunk_size と chunk_overlap をいくつか試して調整する必要があります。

指示

100 XP
  • langchain_text_splitters から RecursiveCharacterTextSplitter クラスをインポートします。
  • separators=["\n", " ", ""]、chunk_size=24、chunk_overlap=10 で RecursiveCharacterTextSplitter のインスタンスを作成します。
  • .split_text() メソッドを使って quote を分割し、チャンク本体と各チャンクの長さを出力します。