BaşlayınÜcretsiz başlayın

RAG için HTML dosyalarını yükleme

Dokümanları HTML gibi karmaşık biçimler de dahil olmak üzere birçok farklı formattan yüklemek mümkündür.

HTML'e aşina değilsen, bu web sayfaları oluşturmak için kullanılan bir işaretleme dilidir. Küçük bir örnek:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Bu egzersizde, bir DataCamp blog yazısı web sayfasından alınmış bir HTML dosyasını yükleyeceksin. Gerekli sınıflar senin için zaten içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

LangChain ile Retrieval Augmented Generation (RAG)

Kursa Göz Atın

Egzersiz talimatları

  • Geçerli dizindeki datacamp-blog.html dosyasını yüklemek için UnstructuredHTMLLoader sınıfını kullan.
  • Dokümanları belleğe yükle.
  • İlk dokümanın sayfa içeriğini yazdır.
  • İlk dokümanın üst verilerini (metadata) yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Kodu Düzenle ve Çalıştır