Pemisahan secara semantik
Semua strategi pemisahan yang Anda gunakan hingga saat ini memiliki kelemahan yang sama: pemisahan tidak mempertimbangkan konteks teks di sekitarnya, sehingga konteks mudah hilang saat dipisahkan.
Dalam latihan ini, Anda akan membuat dan menerapkan pemisah teks semantik, yaitu metode eksperimental mutakhir untuk memisahkan teks berdasarkan makna semantik. Ketika pemisah mendeteksi bahwa makna teks telah menyimpang melewati ambang tertentu, pemisahan akan dilakukan.
Latihan ini adalah bagian dari kursus
Retrieval Augmented Generation (RAG) dengan LangChain
Petunjuk latihan
- Buat instance model embedding
'text-embedding-3-small'dari OpenAI. - Buat pemisah teks semantik yang menggunakan gradien vektor untuk menentukan kemiripan semantik dan menggunakan
0.8sebagai ambang untuk melakukan pemisahan. - Pisahkan
documentmenggunakan pemisah semantik tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')
# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)
# Split the document
chunks = ____
print(chunks[0])