HTML teilen
In dieser Übung teilst du eine HTML-Datei auf, die eine im Oktober 2023 vom Weißen Haus der USA erlassene Verordnung zu KI enthält. Um so viel Kontext wie möglich in den Blöcken zu behalten, solltest du größere Werte für chunk_size
und chunk_overlap
verwenden.
Alle LangChain-Klassen, die du für diese Übung brauchst, wurden bereits für dich geladen.
Diese Übung ist Teil des Kurses
Entwickeln von LLM-Anwendungen mit LangChain
Anleitung zur Übung
- Erstelle einen Document Loader für
white_house_executive_order_nov_2023.html
und lade die Datei. - Setze
chunk_size
auf300
undchunk_overlap
auf100
. - Definiere den Splitter, der am
'.'
-Zeichen trennt, und verwende ihn, umdata
zu trennen. Lasse die Chunks ausgeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)