Příprava dokumentů a vektorové databáze

V následujících cvičeních sestavíš kompletní RAG workflow pro konverzaci s PDF dokumentem obsahujícím článek RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture od Balaguera a kol. (2024). Celý proces zahrnuje rozdělení dokumentů na části, jejich uložení do vektorové databáze, definování promptu pro propojení načtených dokumentů se vstupem uživatele a sestavení retrieval chain, díky které má LLM přístup k těmto externím datům.

V tomto cvičení připravíš dokument k uložení a vložíš ho do vektorové databáze Chroma. K rozdělení PDF použiješ RecursiveCharacterTextSplitter a dokumenty vložíš do vektorové databáze Chroma pomocí embedovací funkce OpenAI. Stejně jako v celém kurzu nemusíš zadávat vlastní OpenAI API klíč.

Následující třídy jsou již naimportované: RecursiveCharacterTextSplitter, Chroma a OpenAIEmbeddings.

Rozděl dokumenty v data pomocí RecursiveCharacterTextSplitter s hodnotou chunk_size nastavenou na 300 a chunk_overlap na 50.
Pomocí metody .from_documents() vytvoř embeddingy a vlož dokumenty do vektorové databáze Chroma s použitím poskytnuté embedovací funkce OpenAI.
Nastav vectorstore jako objekt retrieveru, který vrací 3 nejrelevantnější dokumenty pro použití ve finálním RAG řetězci.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení