RAG için HTML dosyalarını yükleme
Dokümanları HTML gibi karmaşık biçimler de dahil olmak üzere birçok farklı formattan yüklemek mümkündür.
HTML'e aşina değilsen, bu web sayfaları oluşturmak için kullanılan bir işaretleme dilidir. Küçük bir örnek:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Bu egzersizde, bir DataCamp blog yazısı web sayfasından alınmış bir HTML dosyasını yükleyeceksin. Gerekli sınıflar senin için zaten içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
LangChain ile Retrieval Augmented Generation (RAG)
Egzersiz talimatları
- Geçerli dizindeki
datacamp-blog.htmldosyasını yüklemek içinUnstructuredHTMLLoadersınıfını kullan. - Dokümanları belleğe yükle.
- İlk dokümanın sayfa içeriğini yazdır.
- İlk dokümanın üst verilerini (metadata) yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)