Découper des fichiers Python
Même si les fichiers texte et les fichiers de code contiennent les mêmes caractères, les fichiers de code présentent des structures qui vont au-delà du langage naturel. Pour conserver ce contexte spécifique au code lors du découpage des documents, vous devez configurer le découpeur pour qu’il tente d’abord de découper selon les structures de code les plus courantes. Heureusement, LangChain propose exactement la fonctionnalité qu’il vous faut !
Toutes les classes nécessaires ont été importées pour vous, y compris Language depuis langchain_text_splitters.
Cet exercice fait partie du cours
Retrieval Augmented Generation (RAG) avec LangChain
Instructions
- Créez un découpeur récursif par caractères qui découpe selon les structures de code Python courantes.
- Découpez le chargeur de documents
python_dataen segments.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")