Dividir HTML
En este ejercicio, dividirás un HTML que contiene una orden ejecutiva sobre IA creada por la Casa Blanca US en octubre de 2023. Para conservar todo el contexto posible en los trozos, dividirás utilizando valores mayores de chunk_size
y chunk_overlap
.
Todas las clases de LangChain necesarias para completar este ejercicio han sido precargadas para ti.
Este ejercicio forma parte del curso
Desarrollar aplicaciones LLM con LangChain
Instrucciones de ejercicio
- Crea un cargador de documentos para
white_house_executive_order_nov_2023.html
, y cárgalo en memoria. - Establece un
chunk_size
de300
y unchunk_overlap
de100
. - Define el divisor, dividiendo en el carácter
'.'
, y utilízalo para dividirdata
e imprimir los trozos.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)