Charger des fichiers HTML pour le RAG

Il est possible de charger des documents depuis de nombreux formats, y compris des formats complexes comme HTML.

Si vous ne connaissez pas HTML, c’est un langage de balisage pour créer des pages web. Voici un petit exemple :

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Dans cet exercice, vous allez charger un fichier HTML contenant une page d’article du blog DataCamp. Les classes nécessaires ont déjà été importées pour vous.

Cet exercice fait partie du cours

<cours>Retrieval Augmented Generation (RAG) avec LangChain</cours>

Voir le cours

Instructions de l’exercice

Utilisez la classe UnstructuredHTMLLoader pour charger le fichier datacamp-blog.html dans le répertoire courant.
Chargez les documents en mémoire.
Affichez le contenu de la première page du document.
Affichez les métadonnées du premier document.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)

Modifier et exécuter le code