Aan de slagBegin gratis

Tekstextractie uit PDF en chunking

Deze oefening maakt deel uit van de cursus

End-to-End RAG met Weaviate

Bekijk cursus

Oefeninstructies

  • Voer de gegeven code uit om de PDF-documenten te verwerken met docling en ze te parsen als markdownbestanden.
  • Definieer een functie get_chunks_by_length_with_overlap() om md_txt op te delen in stukken van 500 tekens met een overlap van 100 tekens.
  • Definieer een functie get_chunks_using_markers() om md_text_1 op te delen door te splitten op niet-titelkoppen ("\n##").
  • Pas de functie get_chunks_using_markers() toe op md_text_2 en vergelijk de resultaten met md_text_1.


Opmerking: Als je DataLab in Restricted Mode draait, wordt deze oefening nog niet ondersteund. We werken er actief aan om dit in de toekomst beschikbaar te maken.


Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening