Python-Dateien splitten
Auch wenn Text- und Code-Dateien aus denselben Zeichen bestehen, enthalten Code-Dateien Strukturen, die über natürliche Sprache hinausgehen. Um diesen codespezifischen Kontext beim Dokument-Splitting zu bewahren, solltest du den Splitter so konfigurieren, dass er zuerst versucht, nach den gängigsten Codestrukturen zu splitten. Zum Glück stellt LangChain dafür passende Funktionen bereit!
Alle benötigten Klassen wurden bereits für dich importiert, einschließlich Language aus langchain_text_splitters.
Diese Übung ist Teil des Kurses
Retrieval Augmented Generation (RAG) mit LangChain
Anleitung zur Übung
- Erstelle einen rekursiven Zeichen-Splitter, der nach typischen Python-Codestrukturen splittet.
- Teile die mit
python_datageladene Dokumentquelle in Chunks.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")