Comece agoraComece grátis

Carregando arquivos HTML para RAG

É possível carregar documentos de muitos formatos diferentes, incluindo formatos complexos como HTML.

Se você não está familiarizado com HTML, é uma linguagem de marcação para criar páginas da web. Aqui vai um pequeno exemplo:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Neste exercício, você vai carregar um arquivo HTML que contém uma página de um post do blog da DataCamp. As classes necessárias já foram importadas para você.

Este exercicio faz parte do curso

Retrieval Augmented Generation (RAG) com LangChain

Ver curso

Instruções do exercicio

  • Use a classe UnstructuredHTMLLoader para carregar o arquivo datacamp-blog.html no diretório atual.
  • Carregue os documentos na memória.
  • Imprima o conteúdo da página do primeiro documento.
  • Imprima os metadados do primeiro documento.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Editar e Executar Código