1. 학습
  2. /
  3. 강의
  4. /
  5. LangChain で学ぶ Retrieval Augmented Generation (RAG)

Connected

연습 문제

セマンティックな分割

ここまでに扱った分割手法には同じ欠点があります。分割が周囲の文脈を考慮しないため、分割の過程で文脈が失われやすい点です。

この演習では、意味に基づいてテキストを分割する最先端の実験的手法であるセマンティック・テキストスプリッターを作成して適用します。スプリッターがテキストの意味が一定のしきい値を超えて逸脱したと検知したときに、分割を実行します。

지침

100 XP
  • OpenAI の 'text-embedding-3-small' 埋め込みモデルをインスタンス化します。
  • ベクトル勾配を使ってセマンティックな類似度を判定し、分割のしきい値として 0.8 を用いるセマンティック・テキストスプリッターを作成します。
  • セマンティック・スプリッターを使って document を分割します。