Memuat berkas HTML untuk RAG
Anda dapat memuat dokumen dari berbagai format, termasuk format kompleks seperti HTML.
Jika Anda belum familiar dengan HTML, ini adalah bahasa markah untuk membuat halaman web. Berikut contoh kecilnya:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Pada latihan ini, Anda akan memuat sebuah berkas HTML yang berisi halaman artikel blog DataCamp. Kelas-kelas yang diperlukan telah diimpor untuk Anda.
Latihan ini merupakan bagian dari kursus
Retrieval Augmented Generation (RAG) dengan LangChain
Instruksi latihan
- Gunakan kelas
UnstructuredHTMLLoaderuntuk memuat berkasdatacamp-blog.htmldi direktori saat ini. - Muat dokumen ke memori.
- Cetak konten halaman dari dokumen pertama.
- Cetak metadata dari dokumen pertama.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)