BaşlayınÜcretsiz Başlayın

HTML'i bölme

Bu egzersizde, ABD Beyaz Sarayının Ekim 2023'te yayımladığı, AI ile ilgili bir başkanlık kararnamesini içeren bir HTML dosyasını böleceksin. Parçacıklarda mümkün olduğunca fazla bağlamı korumak için daha büyük chunk_size ve chunk_overlap değerleri kullanarak böleceksin.

Bu egzersizi tamamlamak için gereken tüm LangChain sınıfları senin için önceden yüklendi.

Bu egzersiz

LangChain ile LLM Uygulamaları Geliştirme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • white_house_executive_order_nov_2023.html için bir UnstructuredHTMLLoader oluştur ve belleğe yükle.
  • chunk_size değerini 300, chunk_overlap değerini 100 olarak ayarla.
  • '.' karakterine göre bölen bir RecursiveCharacterTextSplitter oluştur ve .split_documents() metodunu kullanarak data'yı böl ve parçacıkları yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = splitter.____(data)
print(docs)
Kodu Düzenle ve Çalıştır