LoslegenKostenlos loslegen

Extraktion und Chunking von PDF-Text

Diese Übung ist Teil des Kurses

End-to-End RAG mit Weaviate

Kurs anzeigen

Anleitung zur Übung

  • Führe den bereitgestellten Code aus, um die PDF-Dokumente mit docling zu verarbeiten und sie als Markdown-Dateien zu parsen.
  • Definiere eine Funktion get_chunks_by_length_with_overlap(), um md_txt mit einer Chunk-Länge von 500 Zeichen und 100 Zeichen Überlappung zu zerlegen.
  • Definiere eine Funktion get_chunks_using_markers(), um md_text_1 zu zerlegen, indem auf Nicht-Titel-Überschriften ("\n##") gesplittet wird.
  • Wende die Funktion get_chunks_using_markers() auf md_text_2 an und vergleiche die Ergebnisse mit md_text_1.


Hinweis: Wenn du DataLab im Restricted Mode ausführst, wird diese Übung derzeit noch nicht unterstützt. Wir arbeiten aktiv daran, sie künftig verfügbar zu machen.


Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten