Ekstraksi teks PDF dan pemotongan (chunking)
Latihan ini merupakan bagian dari kursus
RAG Ujung-ke-Ujung dengan Weaviate
Instruksi latihan
- Jalankan kode yang disediakan untuk memproses dokumen PDF menggunakan
doclingdan mengurai (parse) dokumen tersebut sebagai berkas markdown. - Definisikan fungsi
get_chunks_by_length_with_overlap()untuk memotongmd_txtdengan panjang potongan 500 karakter dan tumpang tindih 100 karakter. - Definisikan fungsi
get_chunks_using_markers()untuk memotongmd_text_1dengan membelah pada judul non-tingkat pertama ("\n##"). - Terapkan fungsi
get_chunks_using_markers()padamd_text_2dan bandingkan hasilnya denganmd_text_1.
Catatan: Jika Anda menjalankan DataLab dalam Mode Terbatas (Restricted Mode), latihan ini belum didukung. Kami sedang bekerja aktif untuk menyediakannya di masa mendatang.
Latihan interaktif langsung
Ubah teori menjadi aksi dengan salah satu latihan interaktif kami
Mulai latihan