HTML'i bölme
Bu egzersizde, ABD Beyaz Sarayının Ekim 2023'te yayımladığı, AI ile ilgili bir başkanlık kararnamesini içeren bir HTML dosyasını böleceksin. Parçacıklarda mümkün olduğunca fazla bağlamı korumak için daha büyük chunk_size ve chunk_overlap değerleri kullanarak böleceksin.
Bu egzersizi tamamlamak için gereken tüm LangChain sınıfları senin için önceden yüklendi.
Bu egzersiz
LangChain ile LLM Uygulamaları Geliştirme
kursunun bir parçasıdırEgzersiz talimatları
white_house_executive_order_nov_2023.htmliçin birUnstructuredHTMLLoaderoluştur ve belleğe yükle.chunk_sizedeğerini300,chunk_overlapdeğerini100olarak ayarla.'.'karakterine göre bölen birRecursiveCharacterTextSplitteroluştur ve.split_documents()metodunu kullanarakdata'yı böl ve parçacıkları yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)