Vektoren für die semantische Suche hochladen

Jetzt kannst du ein paar Textdaten einbetten und die Vektoren und Metadaten in deinen Index „ 'pinecone-datacamp' “ einfügen! Du hast einen Datensatz namens squad_dataset.csv, und ein Beispiel mit 200 Zeilen wurde in den DataFrame „ df “ geladen.

In dieser Übung musst du keinen eigenen API-Schlüssel erstellen und verwenden, um mit der OpenAI-API zu interagieren und deren Einbettungsmodell zu nutzen . Ein funktionierender OpenAI-Client wurde für dich erstellt und der Variablen „ client “ zugewiesen.

Deine Aufgabe ist es, den Text mithilfe der API von OpenAI einzubetten und die Einbettungen und Metadaten unter dem Namespace „ squad_dataset “ in den Pinecone-Index einzufügen.

Diese Übung ist Teil des Kurses

Vektordatenbanken für Einbettungen mit Pinecone

Anleitung zur Übung

Starte den Pinecone-Client mit deinem API-Schlüssel (der OpenAI-Client ist schon als client verfügbar).
Extrahier die Metadaten „ 'id' “, „ 'text' “ und „ 'title' “ aus jedem „ row “ im Stapel.
texts mit „ 'text-embedding-3-small' ” von OpenAI und Dimensions 1536 kodieren.
Füge die Vektoren und Metadaten in einen Namespace namens „ 'squad_dataset' “ ein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Vektordatenbanken für Einbettungen mit Pinecone

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Schau dir mal an, wie die Vektordatenbank von Pinecone funktioniert, von Pods und Indizes bis hin zum Vergleich mit anderen Datenbanken. Lerne, Pod-Typen zu unterscheiden, API-Schlüssel zu bekommen und die Pinecone-Verbindung mit Python einzurichten. Zum Schluss lernst du, wie du Pinecone-Indizes erstellst und dabei verschiedene Parameter wie Dimensionalität, Distanzmetriken, Pod-Typen und andere erkundest.

Exercise 1: Einführung in Pinecone-Indizes Exercise 2: Einen Pinecone-Client erstellen Exercise 3: Dein erster Pinecone-Index Exercise 4: Indizes verwalten Exercise 5: Verbindung zu einem Index herstellen Exercise 6: Löschen eines Index Exercise 7: Das Pinecone-Ökosystem Exercise 8: Vektoraufnahme Exercise 9: Überprüfen der Dimensionalität Exercise 10: Vektoren mit Metadaten einlesen

Probier Pinecone in Python aus, wo wir zeigen, wie man Pinecone zum Verwalten von Indizes, Hinzufügen von Vektoren mit Metadaten, Suchen und Abrufen von Vektoren sowie zum Aktualisieren oder Löschen nutzt. Hol dir ein solides Verständnis der wichtigsten Funktionen und Konzepte, um Daten in der Pinecone-Vektordatenbank reibungslos zu verarbeiten.

Exercise 1: Vektoren abrufen Exercise 2: Abfragen vs. Abrufen Exercise 3: Vektoren abrufen Exercise 4: Vektoren abfragen Exercise 5: Die ähnlichsten Vektoren zurückgeben Exercise 6: Ändern der Entfernungsmessung Exercise 7: Metadaten-Filterung Exercise 8: Abfragen filtern Exercise 9: Mehrere Metadatenfilter Exercise 10: Vektoren aktualisieren und löschen Exercise 11: Vektorwerte aktualisieren Exercise 12: Vektormetadaten aktualisieren Exercise 13: Vektoren löschen

In diesem Kapitel lernen die Teilnehmer, wie man die Leistung des Pinecone-Index optimiert, Multi-Tenant-Namespaces zur Kostensenkung nutzt, semantische Suchmaschinen baut und mit Pinecone und der OpenAI-API Frage-Antwort-Systeme mit erweiterter Suche erstellt. In diesen Lektionen lernen die Teilnehmer praktische Fähigkeiten in den Bereichen Performance-Optimierung, semantische Suche und durch Abfrageerweiterung verbesserte Beantwortung von Fragen, sodass sie Pinecone effektiv in echten KI-Anwendungen einsetzen können.

Exercise 1: Upserts stapeln Exercise 2: Eine Funktion für das Chunking festlegen Exercise 3: Upserts in Blöcken zusammenfassen Exercise 4: Parallele Batching-Upserts Exercise 5: Mehrmandantenfähigkeit und Namensräume Exercise 6: Namensräume Exercise 7: Namensräume abfragen Exercise 8: Semantische Suche mit Pinecone Exercise 9: Erstellen und Konfigurieren eines Pinecone-Index Exercise 10: Vektoren für die semantische Suche hochladen

Aktuelle Übung

Exercise 11: Vektoren für die semantische Suche abfragen Exercise 12: RAG-Chatbot mit Pinecone und OpenAI Exercise 13: YouTube-Transkripte hochladen Exercise 14: Eine Suchfunktion erstellen Exercise 15: RAG-Fragen-Antwort-Funktion Exercise 16: Glückwunsch!