1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain で学ぶ Retrieval Augmented Generation (RAG)

Connected

演習

RAG のための HTML ファイル読み込み

HTML のような複雑な形式を含め、さまざまなフォーマットからドキュメントを読み込むことができます。

HTMLに慣れていない方のために説明すると、HTMLはウェブページを作成するためのマークアップ言語です。小さな例を示します。

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

この演習では、DataCamp のブログ記事ページを含む HTML ファイルを読み込みます。必要なクラスはすでにインポートされています。

指示

100 XP
  • 現在のディレクトリにある datacamp-blog.html ファイルを読み込むために、UnstructuredHTMLLoader クラスを使います。
  • ドキュメントをメモリに読み込みます。
  • 最初のドキュメントのページコンテンツを出力します。
  • 最初のドキュメントのメタデータを出力します。