1. 学ぶ
  2. /
  3. コース
  4. /
  5. LangChain के साथ Retrieval Augmented Generation (RAG)

Connected

演習

टोकन के आधार पर स्प्लिटिंग

RecursiveCharacterTextSplitter या CharacterTextSplitter का उपयोग करके डॉक्यूमेंट्स को स्प्लिट करना सुविधाजनक है और कुछ मामलों में अच्छा परफॉर्मेंस भी दे सकता है, लेकिन इसकी एक कमी है: ये मॉडल द्वारा प्रोसेस किए जाने वाले टोकनों की बजाय कैरेक्टर्स को बेस यूनिट के रूप में लेकर स्प्लिट करते हैं.

इस अभ्यास में, आप एक टोकन टेक्स्ट स्प्लिटर का उपयोग करके डॉक्यूमेंट्स को स्प्लिट करेंगे, ताकि आप हर चंक में टोकनों की संख्या जाँच सकें और सुनिश्चित कर सकें कि वे मॉडल की कॉन्टेक्स्ट विंडो से अधिक न हों. एक PDF डॉक्यूमेंट document के रूप में लोड किया गया है.

tiktoken और सभी आवश्यक क्लास आपके लिए पहले से इम्पोर्ट कर दिए गए हैं.

指示

100 XP
  • tiktoken से gpt-4o-mini की एन्कोडिंग प्राप्त करें ताकि आप हर चंक में टोकनों की संख्या जाँच सकें.
  • GPT-4o-Mini की उसी encoding का उपयोग करके टोकनों की संख्या के आधार पर स्प्लिट करने के लिए एक टेक्स्ट स्प्लिटर बनाएँ.
  • document में स्टोर किए गए PDF को token_splitter का उपयोग करके चंक्स में स्प्लिट करें.