1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tworzenie aplikacji LLM z LangChain

Connected

ćwiczenie

Przygotowanie dokumentów i wektorowej bazy danych

W kolejnych ćwiczeniach zbudujesz kompletny przepływ pracy RAG, który umożliwi prowadzenie rozmowy z dokumentem PDF zawierającym artykuł RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture autorstwa Balaguer i in. (2024). Proces ten polega na podzieleniu dokumentów na fragmenty, zapisaniu ich w wektorowej bazie danych, zdefiniowaniu promptu łączącego pobrane dokumenty z danymi wejściowymi użytkownika oraz zbudowaniu łańcucha wyszukiwania, dzięki któremu LLM uzyska dostęp do tych zewnętrznych danych.

W tym ćwiczeniu przygotujesz dokument do przechowywania i zaindeksujesz go w wektorowej bazie danych Chroma. Użyjesz RecursiveCharacterTextSplitter, aby podzielić PDF na fragmenty, a następnie zaindeksujesz je w bazie Chroma przy użyciu funkcji osadzeń (embeddings) OpenAI. Podobnie jak w pozostałych częściach kursu, nie musisz podawać własnego klucza API OpenAI.

Następujące klasy zostały już zaimportowane: RecursiveCharacterTextSplitter, Chroma oraz OpenAIEmbeddings.

Instrukcje

100 XP
  • Podziel dokumenty zapisane w data za pomocą RecursiveCharacterTextSplitter z parametrem chunk_size równym 300 i chunk_overlap równym 50.
  • Użyj metody .from_documents(), aby osadzić dokumenty i zaindeksować je w wektorowej bazie danych Chroma przy użyciu dostarczonej funkcji osadzeń OpenAI.
  • Skonfiguruj vectorstore jako obiekt retrievera, który zwraca 3 najbardziej trafne dokumenty do użycia w końcowym łańcuchu RAG.