BaşlayınÜcretsiz başlayın

HTML'i bölme

Bu egzersizde, ABD Beyaz Sarayının Ekim 2023'te yayımladığı, AI ile ilgili bir başkanlık kararnamesini içeren bir HTML dosyasını böleceksin. Parçacıklarda mümkün olduğunca fazla bağlamı korumak için daha büyük chunk_size ve chunk_overlap değerleri kullanarak böleceksin.

Bu egzersizi tamamlamak için gereken tüm LangChain sınıfları senin için önceden yüklendi.

Bu egzersiz, kursun bir parçasıdır

LangChain ile LLM Uygulamaları Geliştirme

Kursa Göz Atın

Egzersiz talimatları

  • white_house_executive_order_nov_2023.html için bir UnstructuredHTMLLoader oluştur ve belleğe yükle.
  • chunk_size değerini 300, chunk_overlap değerini 100 olarak ayarla.
  • '.' karakterine göre bölen bir RecursiveCharacterTextSplitter oluştur ve .split_documents() metodunu kullanarak data'yı böl ve parçacıkları yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = splitter.____(data)
print(docs)
Kodu Düzenle ve Çalıştır