Membagi HTML
Dalam latihan ini, Anda akan membagi sebuah HTML yang berisi perintah eksekutif tentang AI yang dikeluarkan oleh Gedung Putih AS pada Oktober 2023. Untuk mempertahankan konteks sebanyak mungkin di dalam potongan, Anda akan membagi dengan nilai chunk_size dan chunk_overlap yang lebih besar.
Semua kelas LangChain yang diperlukan untuk menyelesaikan latihan ini telah dimuat sebelumnya untuk Anda.
Latihan ini merupakan bagian dari kursus
Mengembangkan Aplikasi LLM dengan LangChain
Instruksi latihan
- Buat
UnstructuredHTMLLoaderuntukwhite_house_executive_order_nov_2023.html, lalu muat ke memori. - Tetapkan
chunk_sizesebesar300danchunk_overlapsebesar100. - Buat
RecursiveCharacterTextSplitteryang melakukan pemisahan pada karakter'.', lalu gunakan metode.split_documents()untuk membagidatadan cetak potongannya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)