HTML-Dateien für RAG laden
Dokumente lassen sich aus vielen verschiedenen Formaten laden, darunter auch komplexe Formate wie HTML.
Falls du mit HTML nicht vertraut bist: Es ist eine Auszeichnungssprache zum Erstellen von Webseiten. Hier ist ein kleines Beispiel:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
In dieser Übung lädst du eine HTML-Datei, die eine DataCamp-Blogpost-Webseite enthält. Die benötigten Klassen wurden bereits für dich importiert.
Diese Übung ist Teil des Kurses
Retrieval Augmented Generation (RAG) mit LangChain
Anleitung zur Übung
- Verwende die Klasse
UnstructuredHTMLLoader, um die Dateidatacamp-blog.htmlim aktuellen Verzeichnis zu laden. - Lade die Dokumente in den Arbeitsspeicher.
- Gib den Seiteninhalt des ersten Dokuments aus.
- Gib die Metadaten des ersten Dokuments aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)