LoslegenKostenlos starten

HTML teilen

In dieser Übung teilst du eine HTML-Datei auf, die eine im Oktober 2023 vom Weißen Haus der USA erlassene Verordnung zu KI enthält. Um so viel Kontext wie möglich in den Blöcken zu behalten, solltest du größere Werte für chunk_size und chunk_overlap verwenden.

Alle LangChain-Klassen, die du für diese Übung brauchst, wurden bereits für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Entwickeln von LLM-Anwendungen mit LangChain</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle einen Document Loader für white_house_executive_order_nov_2023.html und lade die Datei.
  • Setze chunk_size auf 300 und chunk_overlap auf 100.
  • Definiere den Splitter, der am '.'-Zeichen trennt, und verwende ihn, um data zu trennen. Lasse die Chunks ausgeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the HTML document into memory
loader = ____
data = ____

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = ____
print(docs)
Code bearbeiten und ausführen