Caricare file HTML per RAG
È possibile caricare documenti da molti formati diversi, inclusi formati complessi come l'HTML.
Se non conosci l'HTML, è un linguaggio di markup per creare pagine web. Ecco un piccolo esempio:
<!DOCTYPE html>
<html>
<body>
<h2>Heading</h2>
<p>Ecco del testo e un'immagine qui sotto:</p>
<img src="image.jpg" alt="..." width="104" height="142">
</body>
</html>
In questo esercizio caricherai un file HTML che contiene una pagina di un post del blog di DataCamp. Le classi necessarie sono già state importate per te.
Questo esercizio fa parte del corso
Retrieval Augmented Generation (RAG) con LangChain
Istruzioni dell'esercizio
- Usa la classe
UnstructuredHTMLLoaderper caricare il filedatacamp-blog.htmlnella directory corrente. - Carica i documenti in memoria.
- Stampa il contenuto della pagina del primo documento.
- Stampa i metadati del primo documento.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a document loader for unstructured HTML
loader = ____
# Load the document
data = ____
# Print the first document's content
print(____)
# Print the first document's metadata
print(____)