1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Retrieval Augmented Generation (RAG) with LangChain

Connected

Cvičení

Načítání HTML souborů pro RAG

Dokumenty lze načítat z celé řady formátů, včetně těch složitějších, jako je HTML.

Pokud HTML neznáš, jde o značkovací jazyk pro tvorbu webových stránek. Tady je malý příklad:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

V tomto cvičení načteš HTML soubor s příspěvkem z blogu DataCamp. Potřebné třídy už jsou za tebe naimportované.

Pokyny

100 XP
  • Pomocí třídy UnstructuredHTMLLoader načti soubor datacamp-blog.html z aktuálního adresáře.
  • Načti dokumenty do paměti.
  • Vypiš obsah stránky prvního dokumentu.
  • Vypiš metadata prvního dokumentu.