Charger des fichiers HTML pour le RAG
Il est possible de charger des documents depuis de nombreux formats, y compris des formats complexes comme HTML.
Si vous ne connaissez pas HTML, c’est un langage de balisage pour créer des pages web. Voici un petit exemple :
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Dans cet exercice, vous allez charger un fichier HTML contenant une page d’article du blog DataCamp. Les classes nécessaires ont déjà été importées pour vous.
Cet exercice fait partie du cours
Retrieval Augmented Generation (RAG) avec LangChain
Instructions
- Utilisez la classe
UnstructuredHTMLLoaderpour charger le fichierdatacamp-blog.htmldans le répertoire courant. - Chargez les documents en mémoire.
- Affichez le contenu de la première page du document.
- Affichez les métadonnées du premier document.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)