BaşlayınÜcretsiz Başlayın

RAG için HTML dosyalarını yükleme

Dokümanları HTML gibi karmaşık biçimler de dahil olmak üzere birçok farklı formattan yüklemek mümkündür.

HTML'e aşina değilsen, bu web sayfaları oluşturmak için kullanılan bir işaretleme dilidir. Küçük bir örnek:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Bu egzersizde, bir DataCamp blog yazısı web sayfasından alınmış bir HTML dosyasını yükleyeceksin. Gerekli sınıflar senin için zaten içe aktarıldı.

Bu egzersiz

LangChain ile Retrieval Augmented Generation (RAG)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Geçerli dizindeki datacamp-blog.html dosyasını yüklemek için UnstructuredHTMLLoader sınıfını kullan.
  • Dokümanları belleğe yükle.
  • İlk dokümanın sayfa içeriğini yazdır.
  • İlk dokümanın üst verilerini (metadata) yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Kodu Düzenle ve Çalıştır