1. Nauka
  2. /
  3. Kursy
  4. /
  5. Retrieval Augmented Generation (RAG) z LangChain

Connected

ćwiczenie

Rekurencyjne dzielenie dokumentów

Dzielenie na podstawie pojedynczego znaku jest proste i przewidywalne, ale często daje nieoptymalny wynik. W tym ćwiczeniu zastosujesz rekurencyjne dzielenie znaków do podziału artykułu Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, który wczytano we wcześniejszym ćwiczeniu.

Pamiętaj, że rekurencyjne dzielenie znaków iteruje po liście znaków i kolejno próbuje dzielić tekst na każdym z nich, sprawdzając, czy powstałe fragmenty mieszczą się w limicie chunk_size.

Instrukcje

100 XP
  • Zdefiniuj rekurencyjny splitter tekstu LangChain, który będzie dzielił tekst według listy znaków ['\n', '.', ' ', ''], z rozmiarem fragmentu 75 i nakładaniem 10.
  • Podziel document przy użyciu zdefiniowanego text_splitter i odpowiedniej metody.