Pemuatan dokumen PDF

Untuk mulai mengimplementasikan Retrieval Augmented Generation (RAG), Anda terlebih dahulu perlu memuat dokumen yang akan diakses oleh model. Dokumen-dokumen ini dapat berasal dari berbagai sumber, dan LangChain mendukung pemuat dokumen untuk banyak di antaranya.

Dalam latihan ini, Anda akan menggunakan pemuat dokumen untuk memuat dokumen PDF yang berisi makalah berjudul RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture oleh Balaguer dkk. (2024).

Catatan: pypdf, dependensi untuk memuat dokumen PDF di LangChain, telah diinstal untuk Anda.

Latihan ini merupakan bagian dari kursus

Mengembangkan Aplikasi LLM dengan LangChain

Instruksi latihan

Impor kelas yang sesuai untuk memuat dokumen PDF di LangChain.
Buat pemuat dokumen untuk dokumen 'rag_vs_fine_tuning.pdf', yang tersedia di direktori saat ini.
Muat dokumen ke memori untuk melihat konten dokumen atau halaman pertama.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import library
from langchain_community.document_loaders import ____

# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____

# Load the document
data = ____
print(data[0])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Mengembangkan Aplikasi LLM dengan LangChain

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Selamat datang di kerangka kerja LangChain untuk membangun aplikasi di atas LLM! Anda akan mempelajari komponen utama LangChain, termasuk model, chains, agents, prompt, dan parser. Anda akan membuat chatbot menggunakan model open-source dari Hugging Face dan model proprietari dari OpenAI, membuat templat prompt, serta mengintegrasikan berbagai strategi memori chatbot untuk mengelola konteks dan sumber daya selama percakapan.

Exercise 1: Ekosistem LangChain Exercise 2: Model OpenAI di LangChain!Exercise 3: Model Hugging Face di LangChain!Exercise 4: Templat prompt Exercise 5: Templat prompt dan perangkaian Exercise 6: Templat prompt chat Exercise 7: Few-shot prompting Exercise 8: Membuat himpunan contoh few-shot Exercise 9: Membangun templat prompt few-shot Exercise 10: Menerapkan few-shot prompting

Saatnya meningkatkan kemampuan chains Anda di LangChain! Anda akan belajar menggunakan LangChain Expression Language (LCEL) untuk mendefinisikan chains dengan fleksibilitas lebih tinggi. Anda akan membuat sequential chains, di mana input diteruskan antar komponen untuk membangun aplikasi yang lebih canggih. Anda juga akan mulai mengintegrasikan agents, yang memanfaatkan LLM untuk pengambilan keputusan.

Exercise 1: Rantai berurutan Exercise 2: Menyusun prompt untuk sequential chains Exercise 3: Sequential chain dengan LCEL Exercise 4: Pengantar agent LangChain Exercise 5: Apa itu agent?Exercise 6: Agen ReAct Exercise 7: Alat kustom untuk agen Exercise 8: Mendefinisikan fungsi untuk penggunaan tool Exercise 9: Membuat tool kustom Exercise 10: Mengintegrasikan alat kustom dengan agent

Salah satu keterbatasan LLM adalah memiliki knowledge cut-off karena dilatih pada data hingga titik waktu tertentu. Pada bab ini, Anda akan belajar membuat aplikasi yang menggunakan Retrieval Augmented Generation (RAG) untuk mengintegrasikan data eksternal dengan LLM. Alur kerja RAG mencakup beberapa proses, termasuk memecah data, membuat dan menyimpan embeddings menggunakan basis data vektor, serta mengambil informasi paling relevan untuk digunakan dalam aplikasi. Anda akan mempelajari seluruh alur kerja ini secara menyeluruh!

Exercise 1: Mengintegrasikan pemuat dokumen Exercise 2: Pemuatan dokumen PDF

Latihan Saat Ini

Exercise 3: Pemuat dokumen CSV Exercise 4: Pemuat dokumen HTML Exercise 5: Memecah data eksternal untuk pengambilan kembali Exercise 6: Memisah berdasarkan karakter Exercise 7: Memecah secara rekursif berdasarkan karakter Exercise 8: Membagi HTML Exercise 9: Penyimpanan dan pengambilan RAG menggunakan basis data vektor Exercise 10: Menyiapkan dokumen dan basis data vektor Exercise 11: Membangun templat prompt retrieval Exercise 12: Membuat rantai RAG Exercise 13: Penutup!