HTML teilen
In dieser Übung teilst du eine HTML-Datei auf, die eine im Oktober 2023 vom Weißen Haus der USA erlassene Verordnung zu KI enthält. Um so viel Kontext wie möglich in den Blöcken zu behalten, solltest du größere Werte für chunk_size und chunk_overlap verwenden.
Alle LangChain-Klassen, die du für diese Übung brauchst, wurden bereits für dich geladen.
Diese Übung ist Teil des Kurses
Entwickeln von LLM-Anwendungen mit LangChain
Anleitung zur Übung
- Erstelle einen Document Loader für
white_house_executive_order_nov_2023.htmlund lade die Datei. - Setze
chunk_sizeauf300undchunk_overlapauf100. - Definiere den Splitter, der am
'.'-Zeichen trennt, und verwende ihn, umdatazu trennen. Lasse die Chunks ausgeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)