ComenzarEmpieza gratis

Dividir HTML

En este ejercicio, dividirás un archivo HTML que contiene una orden ejecutiva sobre IA creada por la Casa Blanca de Estados Unidos en octubre de 2023. Para conservar el máximo contexto posible en los fragmentos, dividirás utilizando valores más grandes para chunk_size y chunk_overlap.

Todas las clases de LangChain necesarias para completar este ejercicio ya están precargadas.

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

Ver curso

Instrucciones del ejercicio

  • Crea un cargador de documentos para white_house_executive_order_nov_2023.html y cárgalo en la memoria.
  • Establece un chunk_size de 300 y un chunk_overlap de 100.
  • Define el divisor, divide por el carácter «'.'» y utilízalo para dividir «data» e imprimir los fragmentos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the HTML document into memory
loader = ____
data = ____

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = ____
print(docs)
Editar y ejecutar código