Aan de slagGa gratis aan de slag

Python-bestanden splitsen

Hoewel tekst- en codebestanden dezelfde tekens bevatten, hebben codebestanden structuren die verder gaan dan natuurlijke taal. Om deze code-specifieke context te behouden tijdens het splitsen van documenten, moet je de splitter zo instellen dat hij eerst probeert te splitsen op de meest voorkomende codestructuren. Gelukkig biedt LangChain functionaliteit om precies dat te doen!

Alle benodigde klassen zijn alvast voor je geïmporteerd, waaronder Language uit langchain_text_splitters.

Deze oefening maakt deel uit van de cursus

Retrieval Augmented Generation (RAG) met LangChain

Cursus bekijken

Oefeninstructies

  • Maak een recursieve tekensplitter die splitst op veelvoorkomende Python-codestructuren.
  • Splits de documentloader python_data in stukken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
    ____, chunk_size=300, chunk_overlap=100
)

# Split the Python content into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
Code bewerken en uitvoeren