Cargar archivos HTML para RAG
Es posible cargar documentos desde muchos formatos diferentes, incluidos formatos complejos como HTML.
Si no estás familiarizado con HTML, es un lenguaje de marcado para crear páginas web. Aquí tienes un pequeño ejemplo:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
En este ejercicio, cargarás un archivo HTML que contiene una página de una entrada del blog de DataCamp. Las clases necesarias ya se han importado por ti.
Este ejercicio forma parte del curso
Retrieval Augmented Generation (RAG) con LangChain
Instrucciones del ejercicio
- Usa la clase
UnstructuredHTMLLoaderpara cargar el archivodatacamp-blog.htmlen el directorio actual. - Carga los documentos en memoria.
- Imprime el contenido de la página del primer documento.
- Imprime los metadatos del primer documento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)