CommencerCommencez gratuitement

Extraction de texte PDF et découpage en segments

Cet exercice fait partie du cours

<cours>RAG de bout en bout avec Weaviate</cours>
Voir le cours

Instructions de l’exercice

  • Exécutez le code fourni pour traiter les documents PDF avec docling et les analyser en fichiers markdown.
  • Définissez une fonction get_chunks_by_length_with_overlap() pour segmenter md_txt avec une longueur de segment de 500 caractères et un chevauchement de 100 caractères.
  • Définissez une fonction get_chunks_using_markers() pour segmenter md_text_1 en le découpant sur les intertitres non titulaires ("\n##").
  • Appliquez la fonction get_chunks_using_markers() à md_text_2 et comparez les résultats avec md_text_1.


Remarque : si vous exécutez DataLab en mode restreint, cet exercice n’est pas encore pris en charge. Nous travaillons activement à le rendre disponible prochainement.


Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice