1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain で開発する LLM アプリケーション

Connected

演習

文字で分割する

Retrieval Augmented Generation(RAG)を実装するうえで重要なプロセスの1つが、ベクターデータベースに保存するためにドキュメントをチャンクに分割することです。

LangChain にはいくつかの分割戦略があり、複雑なものもあります。この演習では、ドキュメントを文字に基づいて分割し、チャンクの長さを文字数で測る「文字テキストスプリッター」を実装します。

最適な分割戦略は1つに定まりません。ユースケースに合う方法を見つけるには、いくつか試してみる必要があります。

指示

100 XP
  • langchain_text_splitters から CharacterTextSplitter クラスをインポートします。
  • separator="\n"、chunk_size=24、chunk_overlap=10 を指定して CharacterTextSplitter のインスタンスを作成します。
  • .split_text() メソッドで quote を分割し、得られたチャンクと各チャンクの長さを出力します。