Divisione ricorsiva per carattere

Molti sviluppatori usano uno splitter ricorsivo per caratteri per dividere i documenti in base a un elenco specifico di caratteri. Per impostazione predefinita, questi caratteri sono paragrafi, a capo, spazi e stringhe vuote: ["\n\n", "\n", " ", ""].

In pratica, lo splitter prova prima a dividere per paragrafi, verifica se i valori di chunk_size e chunk_overlap sono rispettati e, in caso contrario, divide per frasi, poi parole e infine singoli caratteri.

Spesso dovrai sperimentare con diversi valori di chunk_size e chunk_overlap per trovare quelli che funzionano meglio per i tuoi documenti.

Questo esercizio fa parte del corso

Sviluppare applicazioni LLM con LangChain

Visualizza corso

Istruzioni dell'esercizio

Importa la classe RecursiveCharacterTextSplitter da langchain_text_splitters.
Crea un'istanza di RecursiveCharacterTextSplitter con separators=["\n", " ", ""], chunk_size=24 e chunk_overlap=10.
Usa il metodo .split_text() per dividere quote e stampa i chunk e le rispettive lunghezze.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = RecursiveCharacterTextSplitter(
    separators=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the document and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Sviluppare applicazioni LLM con LangChain

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Benvenuto nel framework LangChain per creare applicazioni con LLM! Imparerai i componenti principali di LangChain, tra cui modelli, chain, agenti, prompt e parser. Creerai chatbot usando sia modelli open source da Hugging Face sia modelli proprietari di OpenAI, realizzerai template di prompt e integrerai diverse strategie di memoria per chatbot per gestire contesto e risorse durante le conversazioni.

Exercise 1: L'ecosistema LangChain Exercise 2: Modelli OpenAI in LangChain!Exercise 3: Modelli Hugging Face in LangChain!Exercise 4: Modelli di prompt Exercise 5: Prompt template e concatenazione Exercise 6: Template di prompt per chat Exercise 7: Suggerimento di pochi colpi Exercise 8: Creare un set di esempi di pochi scatti Exercise 9: Creare il template di few-shot prompting Exercise 10: Implementare il few-shot prompting

È il momento di migliorare le tue chain in LangChain! Imparerai a usare il LangChain Expression Language (LCEL) per definire chain con maggiore flessibilità. Creerai chain sequenziali, in cui gli input passano tra i componenti per costruire applicazioni più avanzate. Inizierai anche a integrare agenti, che utilizzano gli LLM per prendere decisioni.

Exercise 1: Catene sequenziali Exercise 2: Costruire suggerimenti per catene sequenziali Exercise 3: Chain sequenziali con LCEL Exercise 4: Introduzione agli agenti LangChain Exercise 5: Cos'è un agent?Exercise 6: Agenti ReAct Exercise 7: Strumenti personalizzati per gli agenti Exercise 8: Definizione di una funzione per l'utilizzo degli strumenti Exercise 9: Creare tool personalizzati Exercise 10: Integrare strumenti personalizzati con gli agenti

Una limitazione degli LLM è avere un knowledge cut-off, perché sono addestrati su dati fino a un certo momento. In questo capitolo imparerai a creare applicazioni che usano la Retrieval Augmented Generation (RAG) per integrare dati esterni con gli LLM. Il flusso di lavoro RAG include vari passaggi: suddivisione dei dati, creazione e archiviazione degli embedding usando un database vettoriale e recupero delle informazioni più rilevanti da usare nell’applicazione. Imparerai a padroneggiare l’intero workflow!

Exercise 1: Integrazione di caricatori di documenti Exercise 2: PDF caricatori di documenti Exercise 3: CSV caricatori di documenti Exercise 4: HTML caricatori di documenti Exercise 5: Suddivisione dei dati esterni per il recupero Exercise 6: Suddivisione per carattere Exercise 7: Divisione ricorsiva per carattere

Esercizio attuale

Exercise 8: Suddividere HTML Exercise 9: RAG archiviazione e recupero con database vettoriali Exercise 10: Preparazione dei documenti e del database vettoriale Exercise 11: Creare un prompt template per il retrieval Exercise 12: Creare una chain RAG Exercise 13: Conclusione!