Vectors upserten voor semantisch zoeken

Tijd om tekstgegevens te embedden en de vectors en metadata te upserten in je 'pinecone-datacamp'-index! Je hebt een gegevensset gekregen met de naam squad_dataset.csv, en een steekproef van 200 rijen is geladen in de DataFrame df.

In deze oefening hoef je geen eigen API-sleutel te maken of te gebruiken om met de OpenAI API te werken en hun embeddingmodel te gebruiken. Er is al een geldige OpenAI-client voor je aangemaakt en toegewezen aan de variabele client.

Jouw taak is om de tekst te embedden met de API van OpenAI en de embeddings en metadata te upserten in de Pinecone-index onder de namespace squad_dataset.

Deze oefening maakt deel uit van de cursus

Vector-databases voor embeddings met Pinecone

Oefeninstructies

Initialiseer de Pinecone-client met je API-sleutel (de OpenAI-client is al beschikbaar als client).
Haal de metadata 'id', 'text' en 'title' uit elke row in de batch.
Encodeer texts met 'text-embedding-3-small' van OpenAI met dimensionaliteit 1536.
Upsert de vectors en metadata in een namespace genaamd 'squad_dataset'.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Vector-databases voor embeddings met Pinecone

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Verken de werking van Pinecone’s vector-database, van pods en indexen tot de vergelijking met andere databases. Leer podtypen onderscheiden, API-sleutels verkrijgen en een Pinecone-verbinding initialiseren met Python. Tot slot leer je hoe je Pinecone-indexen maakt en ontdek je verschillende parameters zoals dimensionaliteit, afstandsmetriek, podtypen en meer.

Exercise 1: Introductie tot Pinecone-indexen Exercise 2: Een Pinecone-client maken Exercise 3: Je eerste Pinecone-index Exercise 4: Indexen beheren Exercise 5: Verbinding maken met een index Exercise 6: Een index verwijderen Exercise 7: Het Pinecone-ecosysteem Exercise 8: Vectorinvoer Exercise 9: Dimensionaliteit controleren Exercise 10: Vectoren met metadata opnemen

Ga hands-on aan de slag met Pinecone in Python. We verkennen het praktische gebruik van Pinecone voor het beheren van indexen, het toevoegen van vectors met metadata, het zoeken en ophalen van vectors en het uitvoeren van updates of verwijderingen. Krijg een solide begrip van de kernfuncties en ideeën om soepel met data te werken in de Pinecone vector-database.

Exercise 1: Vectoren ophalen Exercise 2: Querying vs. fetching Exercise 3: Vectors ophalen Exercise 4: Vectors opvragen Exercise 5: De meest vergelijkbare vectors retourneren Exercise 6: Afstandsmaat wijzigen Exercise 7: Metadata filteren Exercise 8: Queries filteren Exercise 9: Meerdere metadatafilters Exercise 10: Vectoren bijwerken en verwijderen Exercise 11: Vectorwaarden bijwerken Exercise 12: Metadata van vectors bijwerken Exercise 13: Vectoren verwijderen

In dit hoofdstuk duiken cursisten in het optimaliseren van de prestaties van Pinecone-indexen, het inzetten van multitenant-namespaces om kosten te verlagen, het bouwen van semantische zoekmachines en het maken van retrieval-augmented vraag-en-antwoordsystemen met Pinecone en de OpenAI API. Via deze lessen krijg je praktische vaardigheden in performance-tuning, semantisch zoeken en retrieval-augmented vraag-en-antwoord, zodat je Pinecone effectief kunt toepassen in AI-toepassingen in de praktijk.

Exercise 1: Upserts batchgewijs uitvoeren Exercise 2: Een functie definiëren voor chunking Exercise 3: Upserts batchen in chunks Exercise 4: Upserts batchen en parallel uitvoeren Exercise 5: Multitenancy en namespaces Exercise 6: Namespaces Exercise 7: Query's uitvoeren op namespaces Exercise 8: Semantisch zoeken met Pinecone Exercise 9: Een Pinecone-index maken en configureren Exercise 10: Vectors upserten voor semantisch zoeken

Huidige oefening

Exercise 11: Vectoren opvragen voor semantisch zoeken Exercise 12: RAG-chatbot met Pinecone en OpenAI Exercise 13: YouTube-transcripten upserten Exercise 14: Een retrieval-functie bouwen Exercise 15: RAG-vraagantwoordfunctie Exercise 16: Gefeliciteerd!