MulaiMulai sekarang secara gratis

Membagi HTML

Dalam latihan ini, Anda akan membagi sebuah HTML yang berisi perintah eksekutif tentang AI yang dikeluarkan oleh Gedung Putih AS pada Oktober 2023. Untuk mempertahankan konteks sebanyak mungkin di dalam potongan, Anda akan membagi dengan nilai chunk_size dan chunk_overlap yang lebih besar.

Semua kelas LangChain yang diperlukan untuk menyelesaikan latihan ini telah dimuat sebelumnya untuk Anda.

Latihan ini adalah bagian dari kursus

Mengembangkan Aplikasi LLM dengan LangChain

Lihat Kursus

Petunjuk latihan

  • Buat UnstructuredHTMLLoader untuk white_house_executive_order_nov_2023.html, lalu muat ke memori.
  • Tetapkan chunk_size sebesar 300 dan chunk_overlap sebesar 100.
  • Buat RecursiveCharacterTextSplitter yang melakukan pemisahan pada karakter '.', lalu gunakan metode .split_documents() untuk membagi data dan cetak potongannya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = splitter.____(data)
print(docs)
Edit dan Jalankan Kode