Načítání PDF dokumentů

Než začneš implementovat Retrieval Augmented Generation (RAG), budeš nejprve potřebovat načíst dokumenty, ke kterým bude mít model přístup. Tyto dokumenty mohou pocházet z různých zdrojů a LangChain podporuje načítače dokumentů pro mnohé z nich.

V tomto cvičení použiješ načítač dokumentů k načtení PDF souboru obsahujícího článek RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture od Balaguera a kol. (2024).

Poznámka: pypdf, závislost potřebná pro načítání PDF dokumentů v LangChainu, je již nainstalována.

Importuj příslušnou třídu pro načítání PDF dokumentů v LangChainu.
Vytvoř načítač dokumentů pro soubor 'rag_vs_fine_tuning.pdf', který je dostupný v aktuálním adresáři.
Načti dokument do paměti a zobraz obsah prvního dokumentu, tedy první stránky.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení