MulaiMulai sekarang secara gratis

Pemisahan secara semantik

Semua strategi pemisahan yang Anda gunakan hingga saat ini memiliki kelemahan yang sama: pemisahan tidak mempertimbangkan konteks teks di sekitarnya, sehingga konteks mudah hilang saat dipisahkan.

Dalam latihan ini, Anda akan membuat dan menerapkan pemisah teks semantik, yaitu metode eksperimental mutakhir untuk memisahkan teks berdasarkan makna semantik. Ketika pemisah mendeteksi bahwa makna teks telah menyimpang melewati ambang tertentu, pemisahan akan dilakukan.

Latihan ini adalah bagian dari kursus

Retrieval Augmented Generation (RAG) dengan LangChain

Lihat Kursus

Petunjuk latihan

  • Buat instance model embedding 'text-embedding-3-small' dari OpenAI.
  • Buat pemisah teks semantik yang menggunakan gradien vektor untuk menentukan kemiripan semantik dan menggunakan 0.8 sebagai ambang untuk melakukan pemisahan.
  • Pisahkan document menggunakan pemisah semantik tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')

# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
    embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)

# Split the document
chunks = ____
print(chunks[0])
Edit dan Jalankan Kode