MulaiMulai sekarang secara gratis

Memuat berkas HTML untuk RAG

Anda dapat memuat dokumen dari berbagai format, termasuk format kompleks seperti HTML.

Jika Anda belum familiar dengan HTML, ini adalah bahasa markah untuk membuat halaman web. Berikut contoh kecilnya:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Pada latihan ini, Anda akan memuat sebuah berkas HTML yang berisi halaman artikel blog DataCamp. Kelas-kelas yang diperlukan telah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Retrieval Augmented Generation (RAG) dengan LangChain

Lihat Kursus

Petunjuk latihan

  • Gunakan kelas UnstructuredHTMLLoader untuk memuat berkas datacamp-blog.html di direktori saat ini.
  • Muat dokumen ke memori.
  • Cetak konten halaman dari dokumen pertama.
  • Cetak metadata dari dokumen pertama.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Edit dan Jalankan Kode