1. Learn
  2. /
  3. คอร์ส
  4. /
  5. การพัฒนาแอปพลิเคชัน LLM ด้วย LangChain

Connected

แบบฝึกหัด

การแบ่งข้อความตามอักขระ

กระบวนการสำคัญอย่างหนึ่งในการใช้งาน Retrieval Augmented Generation (RAG) คือการแบ่งเอกสารออกเป็น chunk เพื่อจัดเก็บในฐานข้อมูลเวกเตอร์

LangChain มีกลยุทธ์การแบ่งข้อความให้เลือกใช้หลายแบบ บางแบบมีกระบวนการที่ซับซ้อนกว่าแบบอื่น ในแบบฝึกหัดนี้ จะได้ลองใช้ character text splitter ซึ่งแบ่งเอกสารตามอักขระและวัดความยาวของแต่ละ chunk จากจำนวนอักขระ

ไม่มีกลยุทธ์การแบ่งข้อความที่ดีที่สุดสำหรับทุกกรณี อาจต้องลองหลายแบบเพื่อหาวิธีที่เหมาะกับการใช้งานของคุณ

คำแนะนำ

100 XP
  • Import คลาส CharacterTextSplitter จาก langchain_text_splitters
  • สร้าง instance ของ CharacterTextSplitter โดยกำหนด separator="\n", chunk_size=24, และ chunk_overlap=10
  • ใช้เมธอด .split_text() เพื่อแบ่ง quote จากนั้นแสดงผล chunk และความยาวของแต่ละ chunk