Extraction de texte PDF et découpage en segments
Cet exercice fait partie du cours
<cours>RAG de bout en bout avec Weaviate</cours>Instructions de l’exercice
- Exécutez le code fourni pour traiter les documents PDF avec
doclinget les analyser en fichiers markdown. - Définissez une fonction
get_chunks_by_length_with_overlap()pour segmentermd_txtavec une longueur de segment de500caractères et un chevauchement de100caractères. - Définissez une fonction
get_chunks_using_markers()pour segmentermd_text_1en le découpant sur les intertitres non titulaires ("\n##"). - Appliquez la fonction
get_chunks_using_markers()àmd_text_2et comparez les résultats avecmd_text_1.
Remarque : si vous exécutez DataLab en mode restreint, cet exercice n’est pas encore pris en charge. Nous travaillons activement à le rendre disponible prochainement.
Exercice interactif pratique
Transformez la théorie en action avec l’un de nos exercices interactifs
Commencer l’exercice