1. Learn
  2. /
  3. Cursuri
  4. /
  5. Génération augmentée par la recherche (RAG) avec LangChain

Connected

exercițiu

Charger des fichiers HTML pour le RAG

Il est possible de charger des documents à partir de nombreux formats, y compris des formats complexes comme le HTML.

Si vous ne connaissez pas le HTML, c'est un langage de balisage pour créer des pages Web. Voici un petit exemple :

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Dans cet exercice, vous allez charger un fichier HTML contenant une page d'article du blogue de DataCamp. Les classes nécessaires ont déjà été importées pour vous.

Instrucțiuni

100 XP
  • Utilisez la classe UnstructuredHTMLLoader pour charger le fichier datacamp-blog.html dans le répertoire courant.
  • Chargez les documents en mémoire.
  • Affichez le contenu de la première page du document.
  • Affichez les métadonnées du premier document.