1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain で学ぶ Retrieval Augmented Generation (RAG)

Connected

演習

ドキュメントを再帰的に分割する

単一の文字で分割するのは簡単で予測しやすい反面、最適とは言えないチャンクになることがよくあります。この演習では、先の演習で読み込んだ論文「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」に対して、再帰的な文字分割を適用します。

再帰的な文字分割では、文字のリストを順にたどり、それぞれの文字で分割を試みて、chunk_size の制限内でチャンクを作成できるかを確認します。

指示

100 XP
  • 文字リスト ['\n', '.', ' ', ''] を順にたどって再帰的に分割する LangChain の再帰的文字テキストスプリッターを定義し、chunk_size を 75、chunk_overlap を 10 に設定します。
  • 定義した text_splitter と適切なメソッドを使って document を分割します。