LoslegenKostenlos loslegen

Python-Dateien splitten

Auch wenn Text- und Code-Dateien aus denselben Zeichen bestehen, enthalten Code-Dateien Strukturen, die über natürliche Sprache hinausgehen. Um diesen codespezifischen Kontext beim Dokument-Splitting zu bewahren, solltest du den Splitter so konfigurieren, dass er zuerst versucht, nach den gängigsten Codestrukturen zu splitten. Zum Glück stellt LangChain dafür passende Funktionen bereit!

Alle benötigten Klassen wurden bereits für dich importiert, einschließlich Language aus langchain_text_splitters.

Diese Übung ist Teil des Kurses

Retrieval Augmented Generation (RAG) mit LangChain

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen rekursiven Zeichen-Splitter, der nach typischen Python-Codestrukturen splittet.
  • Teile die mit python_data geladene Dokumentquelle in Chunks.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
    ____, chunk_size=300, chunk_overlap=100
)

# Split the Python content into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
Code bearbeiten und ausführen