Membagi HTML
Dalam latihan ini, Anda akan membagi sebuah HTML yang berisi perintah eksekutif tentang AI yang dikeluarkan oleh Gedung Putih AS pada Oktober 2023. Untuk mempertahankan konteks sebanyak mungkin di dalam potongan, Anda akan membagi dengan nilai chunk_size dan chunk_overlap yang lebih besar.
Semua kelas LangChain yang diperlukan untuk menyelesaikan latihan ini telah dimuat sebelumnya untuk Anda.
Latihan ini adalah bagian dari kursus
Mengembangkan Aplikasi LLM dengan LangChain
Petunjuk latihan
- Buat
UnstructuredHTMLLoaderuntukwhite_house_executive_order_nov_2023.html, lalu muat ke memori. - Tetapkan
chunk_sizesebesar300danchunk_overlapsebesar100. - Buat
RecursiveCharacterTextSplitteryang melakukan pemisahan pada karakter'.', lalu gunakan metode.split_documents()untuk membagidatadan cetak potongannya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)