HTML Dokumentenlader
Es ist möglich, Dokumente aus vielen verschiedenen Formaten zu laden, einschließlich komplexer Formate wie HTML.
In dieser Übung lädst du eine HTML Datei, die eine Durchführungsverordnung des Weißen Hauses enthält.
Diese Übung ist Teil des Kurses
Entwicklung von LLM Anwendungen mit LangChain
Anleitung zur Übung
- Verwende die Klasse
UnstructuredHTMLLoader
, um die Dateiwhite_house_executive_order_nov_2023.html
in das aktuelle Verzeichnis zu laden. - Lade die Dokumente in den Speicher.
- Drucke das erste Dokument.
- Drucke die Metadaten des ersten Dokuments.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
from langchain_community.document_loaders import UnstructuredHTMLLoader
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document
print(____)
# Print the first document's metadata
print(____)