1. Learn
  2. /
  3. Cursuri
  4. /
  5. Retrieval Augmented Generation (RAG) cu LangChain

Connected

exercițiu

Împărțirea recursivă a documentelor

Împărțirea după un singur caracter este simplă și previzibilă, însă produce adesea fragmente sub-optimale. În acest exercițiu, vei aplica împărțirea recursivă a caracterelor pentru a segmenta lucrarea Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, pe care ai încărcat-o într-un exercițiu anterior.

Amintiți-vă că împărțirea recursivă a caracterelor iterează printr-o listă de caractere, împărțind după fiecare pe rând, pentru a verifica dacă se pot crea fragmente sub limita chunk_size.

Instrucțiuni

100 XP
  • Definește un splitter recursiv de text pe caractere în LangChain, care să împartă recursiv prin lista de caractere ['\n', '.', ' ', ''], cu o dimensiune a fragmentului de 75 și o suprapunere de 10.
  • Împarte document folosind text_splitter-ul definit și o metodă corespunzătoare.