RAG için HTML dosyalarını yükleme
Dokümanları HTML gibi karmaşık biçimler de dahil olmak üzere birçok farklı formattan yüklemek mümkündür.
HTML'e aşina değilsen, bu web sayfaları oluşturmak için kullanılan bir işaretleme dilidir. Küçük bir örnek:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Bu egzersizde, bir DataCamp blog yazısı web sayfasından alınmış bir HTML dosyasını yükleyeceksin. Gerekli sınıflar senin için zaten içe aktarıldı.
Bu egzersiz
LangChain ile Retrieval Augmented Generation (RAG)
kursunun bir parçasıdırEgzersiz talimatları
- Geçerli dizindeki
datacamp-blog.htmldosyasını yüklemek içinUnstructuredHTMLLoadersınıfını kullan. - Dokümanları belleğe yükle.
- İlk dokümanın sayfa içeriğini yazdır.
- İlk dokümanın üst verilerini (metadata) yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)