Aan de slagGa gratis aan de slag

HTML-bestanden laden voor RAG

Je kunt documenten laden uit veel verschillende indelingen, waaronder complexe formaten zoals HTML.

Als je niet vertrouwd bent met HTML: het is een opmaaktaal voor het maken van webpagina's. Hier is een klein voorbeeld:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

In deze oefening laad je een HTML-bestand met een webpagina van een DataCamp-blogpost. De benodigde classes zijn al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Retrieval Augmented Generation (RAG) met LangChain

Cursus bekijken

Oefeninstructies

  • Gebruik de class UnstructuredHTMLLoader om het bestand datacamp-blog.html in de huidige map te laden.
  • Laad de documenten in het geheugen.
  • Print de pagina-inhoud van het eerste document.
  • Print de metadata van het eerste document.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Code bewerken en uitvoeren