1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain で開発する LLM アプリケーション

Connected

演習

HTML の分割

この演習では、米国ホワイトハウスが 2023 年 10 月に発表した AI に関する大統領令を含む HTML を分割します。チャンク内の文脈をできるだけ保持するために、chunk_size と chunk_overlap の値を大きめに設定して分割します。

この演習を完了するために必要な LangChain のクラスはすべて事前に読み込まれています。

指示

100 XP
  • white_house_executive_order_nov_2023.html 用の UnstructuredHTMLLoader を作成し、メモリに読み込みます。
  • chunk_size を 300、chunk_overlap を 100 に設定します。
  • '.' 文字で分割する RecursiveCharacterTextSplitter を作成し、.split_documents() メソッドで data を分割して、チャンクを出力します。