Python-bestanden splitsen
Hoewel tekst- en codebestanden dezelfde tekens bevatten, hebben codebestanden structuren die verder gaan dan natuurlijke taal. Om deze code-specifieke context te behouden tijdens het splitsen van documenten, moet je de splitter zo instellen dat hij eerst probeert te splitsen op de meest voorkomende codestructuren. Gelukkig biedt LangChain functionaliteit om precies dat te doen!
Alle benodigde klassen zijn alvast voor je geïmporteerd, waaronder Language uit langchain_text_splitters.
Deze oefening maakt deel uit van de cursus
Retrieval Augmented Generation (RAG) met LangChain
Oefeninstructies
- Maak een recursieve tekensplitter die splitst op veelvoorkomende Python-codestructuren.
- Splits de documentloader
python_datain stukken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")