Carregando arquivos HTML para RAG
É possível carregar documentos de muitos formatos diferentes, incluindo formatos complexos como HTML.
Se você não está familiarizado com HTML, é uma linguagem de marcação para criar páginas da web. Aqui vai um pequeno exemplo:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
Neste exercício, você vai carregar um arquivo HTML que contém uma página de um post do blog da DataCamp. As classes necessárias já foram importadas para você.
Este exercício faz parte do curso
Retrieval Augmented Generation (RAG) com LangChain
Instruções do exercício
- Use a classe
UnstructuredHTMLLoaderpara carregar o arquivodatacamp-blog.htmlno diretório atual. - Carregue os documentos na memória.
- Imprima o conteúdo da página do primeiro documento.
- Imprima os metadados do primeiro documento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)