1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vývoj LLM aplikací s LangChain

Connected

cvičení

Příprava dokumentů a vektorové databáze

V následujících cvičeních sestavíš kompletní RAG workflow pro konverzaci s PDF dokumentem obsahujícím článek RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture od Balaguera a kol. (2024). Celý proces zahrnuje rozdělení dokumentů na části, jejich uložení do vektorové databáze, definování promptu pro propojení načtených dokumentů se vstupem uživatele a sestavení retrieval chain, díky které má LLM přístup k těmto externím datům.

V tomto cvičení připravíš dokument k uložení a vložíš ho do vektorové databáze Chroma. K rozdělení PDF použiješ RecursiveCharacterTextSplitter a dokumenty vložíš do vektorové databáze Chroma pomocí embedovací funkce OpenAI. Stejně jako v celém kurzu nemusíš zadávat vlastní OpenAI API klíč.

Následující třídy jsou již naimportované: RecursiveCharacterTextSplitter, Chroma a OpenAIEmbeddings.

Pokyny

100 XP
  • Rozděl dokumenty v data pomocí RecursiveCharacterTextSplitter s hodnotou chunk_size nastavenou na 300 a chunk_overlap na 50.
  • Pomocí metody .from_documents() vytvoř embeddingy a vlož dokumenty do vektorové databáze Chroma s použitím poskytnuté embedovací funkce OpenAI.
  • Nastav vectorstore jako objekt retrieveru, který vrací 3 nejrelevantnější dokumenty pro použití ve finálním RAG řetězci.