Memuat berkas HTML untuk RAG
Anda dapat memuat dokumen dari berbagai format, termasuk format kompleks seperti HTML.
Jika Anda belum familiar dengan HTML, ini adalah bahasa markah untuk membuat halaman web. Berikut contoh kecilnya:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Pada latihan ini, Anda akan memuat sebuah berkas HTML yang berisi halaman artikel blog DataCamp. Kelas-kelas yang diperlukan telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Retrieval Augmented Generation (RAG) dengan LangChain
Petunjuk latihan
- Gunakan kelas
UnstructuredHTMLLoaderuntuk memuat berkasdatacamp-blog.htmldi direktori saat ini. - Muat dokumen ke memori.
- Cetak konten halaman dari dokumen pertama.
- Cetak metadata dari dokumen pertama.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)