LoslegenKostenlos starten

Python-Dateien splitten

Auch wenn Text- und Code-Dateien aus denselben Zeichen bestehen, enthalten Code-Dateien Strukturen, die über natürliche Sprache hinausgehen. Um diesen codespezifischen Kontext beim Dokument-Splitting zu bewahren, solltest du den Splitter so konfigurieren, dass er zuerst versucht, nach den gängigsten Codestrukturen zu splitten. Zum Glück stellt LangChain dafür passende Funktionen bereit!

Alle benötigten Klassen wurden bereits für dich importiert, einschließlich Language aus langchain_text_splitters.

Diese Übung ist Teil des Kurses

<Kurs>Retrieval Augmented Generation (RAG) mit LangChain</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle einen rekursiven Zeichen-Splitter, der nach typischen Python-Codestrukturen splittet.
  • Teile die mit python_data geladene Dokumentquelle in Chunks.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
    ____, chunk_size=300, chunk_overlap=100
)

# Split the Python content into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
Code bearbeiten und ausführen