CommencerCommencer gratuitement

Découper des fichiers Python

Même si les fichiers texte et les fichiers de code contiennent les mêmes caractères, les fichiers de code présentent des structures qui vont au-delà du langage naturel. Pour conserver ce contexte spécifique au code lors du découpage des documents, vous devez configurer le découpeur pour qu’il tente d’abord de découper selon les structures de code les plus courantes. Heureusement, LangChain propose exactement la fonctionnalité qu’il vous faut !

Toutes les classes nécessaires ont été importées pour vous, y compris Language depuis langchain_text_splitters.

Cet exercice fait partie du cours

Retrieval Augmented Generation (RAG) avec LangChain

Afficher le cours

Instructions

  • Créez un découpeur récursif par caractères qui découpe selon les structures de code Python courantes.
  • Découpez le chargeur de documents python_data en segments.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
    ____, chunk_size=300, chunk_overlap=100
)

# Split the Python content into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
Modifier et exécuter le code