1. Learn
  2. /
  3. कोर्स
  4. /
  5. LangChain के साथ Retrieval Augmented Generation (RAG)

Connected

अभ्यास

डॉक्यूमेंट्स को रिकर्सिव तरीके से बाँटना

एक ही कैरेक्टर पर स्प्लिट करना आसान और अनुमानित होता है, लेकिन यह अक्सर कम-उपयुक्त चंक्स देता है। इस अभ्यास में, आप रिकर्सिव कैरेक्टर स्प्लिटिंग लागू करेंगे ताकि पहले वाले अभ्यास में लोड किए गए Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks पेपर को बाँटा जा सके.

ध्यान रखें कि रिकर्सिव कैरेक्टर स्प्लिटिंग कैरेक्टर्स की एक सूची पर इटरेट करती है, और बारी-बारी से हर कैरेक्टर पर स्प्लिट करके देखती है कि क्या chunk_size सीमा से छोटे चंक्स बनाए जा सकते हैं.

निर्देश

100 XP
  • LangChain का एक रिकर्सिव कैरेक्टर टेक्स्ट स्प्लिटर परिभाषित करें, जो कैरेक्टर लिस्ट ['\n', '.', ' ', ''] पर क्रमशः रिकर्सिव तरीके से स्प्लिट करे, chunk_size 75 और chunk_overlap 10 हो.
  • परिभाषित text_splitter और उपयुक्त मेथड का उपयोग करके document को स्प्लिट करें.