Mulai sekarangMulai gratis

Ekstraksi teks PDF dan pemotongan (chunking)

Latihan ini merupakan bagian dari kursus

RAG Ujung-ke-Ujung dengan Weaviate

Lihat Kursus

Instruksi latihan

  • Jalankan kode yang disediakan untuk memproses dokumen PDF menggunakan docling dan mengurai (parse) dokumen tersebut sebagai berkas markdown.
  • Definisikan fungsi get_chunks_by_length_with_overlap() untuk memotong md_txt dengan panjang potongan 500 karakter dan tumpang tindih 100 karakter.
  • Definisikan fungsi get_chunks_using_markers() untuk memotong md_text_1 dengan membelah pada judul non-tingkat pertama ("\n##").
  • Terapkan fungsi get_chunks_using_markers() pada md_text_2 dan bandingkan hasilnya dengan md_text_1.


Catatan: Jika Anda menjalankan DataLab dalam Mode Terbatas (Restricted Mode), latihan ini belum didukung. Kami sedang bekerja aktif untuk menyediakannya di masa mendatang.


Latihan interaktif langsung

Ubah teori menjadi aksi dengan salah satu latihan interaktif kami

Mulai latihan