LoslegenKostenlos loslegen

HTML-Dateien für RAG laden

Dokumente lassen sich aus vielen verschiedenen Formaten laden, darunter auch komplexe Formate wie HTML.

Falls du mit HTML nicht vertraut bist: Es ist eine Auszeichnungssprache zum Erstellen von Webseiten. Hier ist ein kleines Beispiel:

<!DOCTYPE html>
<html>
<body>
  <h2>Heading</h2>
  <p>Here's some text and an image below:</p>
  <img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>

In dieser Übung lädst du eine HTML-Datei, die eine DataCamp-Blogpost-Webseite enthält. Die benötigten Klassen wurden bereits für dich importiert.

Diese Übung ist Teil des Kurses

Retrieval Augmented Generation (RAG) mit LangChain

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Klasse UnstructuredHTMLLoader, um die Datei datacamp-blog.html im aktuellen Verzeichnis zu laden.
  • Lade die Dokumente in den Arbeitsspeicher.
  • Gib den Seiteninhalt des ersten Dokuments aus.
  • Gib die Metadaten des ersten Dokuments aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a document loader for unstructured HTML
loader = ____

# Load the document
data = ____

# Print the first document's content
print(____)

# Print the first document's metadata
print(____)
Code bearbeiten und ausführen