1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tworzenie aplikacji LLM z LangChain

Connected

ćwiczenie

Dzielenie HTML

W tym ćwiczeniu podzielisz plik HTML zawierający rozporządzenie wykonawcze w sprawie AI, wydane przez Biały Dom w październiku 2023 roku. Aby zachować jak najwięcej kontekstu w poszczególnych fragmentach, użyj większych wartości chunk_size i chunk_overlap.

Wszystkie niezbędne klasy LangChain zostały już załadowane.

Instrukcje

100 XP
  • Utwórz UnstructuredHTMLLoader dla pliku white_house_executive_order_nov_2023.html i załaduj go do pamięci.
  • Ustaw chunk_size na 300 i chunk_overlap na 100.
  • Utwórz RecursiveCharacterTextSplitter dzielący na znaku '.', a następnie użyj metody .split_documents(), aby podzielić data i wyświetlić fragmenty.