Tekstextractie uit PDF en chunking
Deze oefening maakt deel uit van de cursus
End-to-End RAG met Weaviate
Oefeninstructies
- Voer de gegeven code uit om de PDF-documenten te verwerken met
doclingen ze te parsen als markdownbestanden. - Definieer een functie
get_chunks_by_length_with_overlap()ommd_txtop te delen in stukken van500tekens met een overlap van100tekens. - Definieer een functie
get_chunks_using_markers()ommd_text_1op te delen door te splitten op niet-titelkoppen ("\n##"). - Pas de functie
get_chunks_using_markers()toe opmd_text_2en vergelijk de resultaten metmd_text_1.
Opmerking: Als je DataLab in Restricted Mode draait, wordt deze oefening nog niet ondersteund. We werken er actief aan om dit in de toekomst beschikbaar te maken.
Interactieve oefening met praktijkervaring
Zet theorie om in actie met een van onze interactieve oefeningen
Begin oefening