Przygotowanie dokumentów i wektorowej bazy danych

W kolejnych ćwiczeniach zbudujesz kompletny przepływ pracy RAG, który umożliwi prowadzenie rozmowy z dokumentem PDF zawierającym artykuł RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture autorstwa Balaguer i in. (2024). Proces ten polega na podzieleniu dokumentów na fragmenty, zapisaniu ich w wektorowej bazie danych, zdefiniowaniu promptu łączącego pobrane dokumenty z danymi wejściowymi użytkownika oraz zbudowaniu łańcucha wyszukiwania, dzięki któremu LLM uzyska dostęp do tych zewnętrznych danych.

W tym ćwiczeniu przygotujesz dokument do przechowywania i zaindeksujesz go w wektorowej bazie danych Chroma. Użyjesz RecursiveCharacterTextSplitter, aby podzielić PDF na fragmenty, a następnie zaindeksujesz je w bazie Chroma przy użyciu funkcji osadzeń (embeddings) OpenAI. Podobnie jak w pozostałych częściach kursu, nie musisz podawać własnego klucza API OpenAI.

Następujące klasy zostały już zaimportowane: RecursiveCharacterTextSplitter, Chroma oraz OpenAIEmbeddings.

Podziel dokumenty zapisane w data za pomocą RecursiveCharacterTextSplitter z parametrem chunk_size równym 300 i chunk_overlap równym 50.
Użyj metody .from_documents(), aby osadzić dokumenty i zaindeksować je w wektorowej bazie danych Chroma przy użyciu dostarczonej funkcji osadzeń OpenAI.
Skonfiguruj vectorstore jako obiekt retrievera, który zwraca 3 najbardziej trafne dokumenty do użycia w końcowym łańcuchu RAG.

ćwiczenie

Przygotowanie dokumentów i wektorowej bazy danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie