HTML-bestanden laden voor RAG
Je kunt documenten laden uit veel verschillende indelingen, waaronder complexe formaten zoals HTML.
Als je niet vertrouwd bent met HTML: het is een opmaaktaal voor het maken van webpagina's. Hier is een klein voorbeeld:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Here's some text and an image below:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
In deze oefening laad je een HTML-bestand met een webpagina van een DataCamp-blogpost. De benodigde classes zijn al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Retrieval Augmented Generation (RAG) met LangChain
Oefeninstructies
- Gebruik de class
UnstructuredHTMLLoaderom het bestanddatacamp-blog.htmlin de huidige map te laden. - Laad de documenten in het geheugen.
- Print de pagina-inhoud van het eerste document.
- Print de metadata van het eerste document.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)