Memisah berdasarkan karakter

Proses penting dalam menerapkan Retrieval Augmented Generation (RAG) adalah memecah dokumen menjadi potongan (chunk) untuk disimpan dalam basis data vektor.

Tersedia beberapa strategi pemecahan (splitting) di LangChain, sebagian memiliki rutinitas yang lebih kompleks daripada yang lain. Pada latihan ini, Anda akan menerapkan character text splitter, yang memecah dokumen berdasarkan karakter dan mengukur panjang chunk berdasarkan jumlah karakter.

Ingat bahwa tidak ada strategi pemecahan yang ideal; Anda mungkin perlu bereksperimen dengan beberapa pendekatan untuk menemukan yang paling tepat bagi kasus penggunaan Anda.

Latihan ini merupakan bagian dari kursus

Mengembangkan Aplikasi LLM dengan LangChain

Instruksi latihan

Impor kelas CharacterTextSplitter dari langchain_text_splitters.
Buat instance CharacterTextSplitter dengan separator="\n", chunk_size=24, dan chunk_overlap=10.
Gunakan metode .split_text() untuk memecah quote lalu cetak chunk beserta panjang chunk-nya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = CharacterTextSplitter(
    separator=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the string and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Mengembangkan Aplikasi LLM dengan LangChain

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Selamat datang di kerangka kerja LangChain untuk membangun aplikasi di atas LLM! Anda akan mempelajari komponen utama LangChain, termasuk model, chains, agents, prompt, dan parser. Anda akan membuat chatbot menggunakan model open-source dari Hugging Face dan model proprietari dari OpenAI, membuat templat prompt, serta mengintegrasikan berbagai strategi memori chatbot untuk mengelola konteks dan sumber daya selama percakapan.

Exercise 1: Ekosistem LangChain Exercise 2: Model OpenAI di LangChain!Exercise 3: Model Hugging Face di LangChain!Exercise 4: Templat prompt Exercise 5: Templat prompt dan perangkaian Exercise 6: Templat prompt chat Exercise 7: Few-shot prompting Exercise 8: Membuat himpunan contoh few-shot Exercise 9: Membangun templat prompt few-shot Exercise 10: Menerapkan few-shot prompting

Saatnya meningkatkan kemampuan chains Anda di LangChain! Anda akan belajar menggunakan LangChain Expression Language (LCEL) untuk mendefinisikan chains dengan fleksibilitas lebih tinggi. Anda akan membuat sequential chains, di mana input diteruskan antar komponen untuk membangun aplikasi yang lebih canggih. Anda juga akan mulai mengintegrasikan agents, yang memanfaatkan LLM untuk pengambilan keputusan.

Exercise 1: Rantai berurutan Exercise 2: Menyusun prompt untuk sequential chains Exercise 3: Sequential chain dengan LCEL Exercise 4: Pengantar agent LangChain Exercise 5: Apa itu agent?Exercise 6: Agen ReAct Exercise 7: Alat kustom untuk agen Exercise 8: Mendefinisikan fungsi untuk penggunaan tool Exercise 9: Membuat tool kustom Exercise 10: Mengintegrasikan alat kustom dengan agent

Salah satu keterbatasan LLM adalah memiliki knowledge cut-off karena dilatih pada data hingga titik waktu tertentu. Pada bab ini, Anda akan belajar membuat aplikasi yang menggunakan Retrieval Augmented Generation (RAG) untuk mengintegrasikan data eksternal dengan LLM. Alur kerja RAG mencakup beberapa proses, termasuk memecah data, membuat dan menyimpan embeddings menggunakan basis data vektor, serta mengambil informasi paling relevan untuk digunakan dalam aplikasi. Anda akan mempelajari seluruh alur kerja ini secara menyeluruh!

Exercise 1: Mengintegrasikan pemuat dokumen Exercise 2: Pemuatan dokumen PDF Exercise 3: Pemuat dokumen CSV Exercise 4: Pemuat dokumen HTML Exercise 5: Memecah data eksternal untuk pengambilan kembali Exercise 6: Memisah berdasarkan karakter

Latihan Saat Ini

Exercise 7: Memecah secara rekursif berdasarkan karakter Exercise 8: Membagi HTML Exercise 9: Penyimpanan dan pengambilan RAG menggunakan basis data vektor Exercise 10: Menyiapkan dokumen dan basis data vektor Exercise 11: Membangun templat prompt retrieval Exercise 12: Membuat rantai RAG Exercise 13: Penutup!