Dividir HTML
En este ejercicio, dividirás un archivo HTML que contiene una orden ejecutiva sobre IA creada por la Casa Blanca de Estados Unidos en octubre de 2023. Para conservar el máximo contexto posible en los fragmentos, dividirás utilizando valores más grandes para chunk_size y chunk_overlap.
Todas las clases de LangChain necesarias para completar este ejercicio ya están precargadas.
Este ejercicio forma parte del curso
Desarrollo de aplicaciones LLM con LangChain
Instrucciones del ejercicio
- Crea un objeto de tipo
UnstructuredHTMLLoaderparawhite_house_executive_order_nov_2023.htmly cárgalo en la memoria. - Establece un
chunk_sizede300y unchunk_overlapde100. - Crea una división de tipo «
RecursiveCharacterTextSplitter» en el carácter «'.'» y utiliza el método «.split_documents()» para dividir «data» e imprimir los fragmentos.
ejercicio interactivo práctico
Prueba este ejercicio completando este código de ejemplo.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)