Extraktion und Chunking von PDF-Text
Diese Übung ist Teil des Kurses
End-to-End RAG mit Weaviate
Anleitung zur Übung
- Führe den bereitgestellten Code aus, um die PDF-Dokumente mit
doclingzu verarbeiten und sie als Markdown-Dateien zu parsen. - Definiere eine Funktion
get_chunks_by_length_with_overlap(), ummd_txtmit einer Chunk-Länge von500Zeichen und100Zeichen Überlappung zu zerlegen. - Definiere eine Funktion
get_chunks_using_markers(), ummd_text_1zu zerlegen, indem auf Nicht-Titel-Überschriften ("\n##") gesplittet wird. - Wende die Funktion
get_chunks_using_markers()aufmd_text_2an und vergleiche die Ergebnisse mitmd_text_1.
Hinweis: Wenn du DataLab im Restricted Mode ausführst, wird diese Übung derzeit noch nicht unterstützt. Wir arbeiten aktiv daran, sie künftig verfügbar zu machen.
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten