ComeçarComece de graça

Carregando arquivos HTML para RAG

É possível carregar documentos de muitos formatos diferentes, incluindo formatos complexos como HTML.

Se você não está familiarizado com HTML, é uma linguagem de marcação para criar páginas da web. Aqui vai um pequeno exemplo:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

Neste exercício, você vai carregar um arquivo HTML que contém uma página de um post do blog da DataCamp. As classes necessárias já foram importadas para você.

Este exercício faz parte do curso

Retrieval Augmented Generation (RAG) com LangChain

Ver curso

Instruções do exercício

  • Use a classe UnstructuredHTMLLoader para carregar o arquivo datacamp-blog.html no diretório atual.
  • Carregue os documentos na memória.
  • Imprima o conteúdo da página do primeiro documento.
  • Imprima os metadados do primeiro documento.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Editar e executar o código