Upserting de vecteurs pour la recherche sémantique

Il est temps d'intégrer certaines données textuelles et d'insérer les vecteurs et les métadonnées dans votre index d''pinecone-datacamp'! Vous avez reçu un ensemble de données nommé squad_dataset.csv, et un échantillon de 200 lignes a été chargé dans le DataFrame, df.

Dans cet exercice, pour interagir avec l'API OpenAI afin d'utiliser leur modèle d'intégration, il n'est pas nécessaire de créer et d'utiliser votre propre clé API. Un client OpenAI valide a été créé pour vous et attribué à la variable client.

Votre tâche consiste à intégrer le texte à l'aide de l'API OpenAI et à insérer les intégrations et les métadonnées dans l'index Pinecone sous l'espace de noms squad_dataset.

Cet exercice fait partie du cours

<cours>Bases de données vectorielles pour les intégrations avec Pinecone</cours>

Instructions de l’exercice

Veuillez initialiser le client Pinecone avec votre clé API (le client OpenAI est déjà disponible à l'adresse client).
Extrayez les métadonnées 'id', 'text' et 'title' de chaque fichier row du lot.
Encodez l'texts s à l'aide de l''text-embedding-3-small' d'OpenAI avec la dimensionnalité 1536.
Insérez les vecteurs et les métadonnées dans un espace de noms appelé « 'squad_dataset' ».

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Bases de données vectorielles pour les intégrations avec Pinecone</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez les mécanismes qui sous-tendent la base de données vectorielle de Pinecone, des pods et index à la comparaison avec d'autres bases de données. Apprenez à différencier les types de pods, à obtenir des clés API et à initialiser la connexion Pinecone à l'aide de Python. Enfin, vous apprendrez à créer des index Pinecone, en explorant différents paramètres tels que la dimensionnalité, les mesures de distance, les types de pods, etc.

Exercise 1: Présentation des index Pinecone Exercise 2: Création d'un client Pinecone Exercise 3: Votre premier indice Pinecone Exercise 4: Gestion des index Exercise 5: Connexion à un index Exercise 6: Suppression d'un index Exercise 7: L'écosystème Pinecone Exercise 8: Ingestion de vecteurs Exercise 9: Vérification des dimensions Exercise 10: Ingestion de vecteurs avec métadonnées

Découvrez Pinecone dans Python, où nous explorons les aspects pratiques de l'utilisation de Pinecone pour gérer des index, ajouter des vecteurs avec des métadonnées, rechercher et récupérer des vecteurs, et effectuer des mises à jour ou des suppressions. Acquérez une solide compréhension des principales fonctions et concepts pour gérer efficacement les données dans la base de données vectorielle Pinecone.

Exercise 1: Récupération des vecteurs Exercise 2: Interrogation et récupération Exercise 3: Récupération de vecteurs Exercise 4: Interrogation de vecteurs Exercise 5: Renvoyer les vecteurs les plus similaires Exercise 6: Modification des mesures de distance Exercise 7: Filtrage des métadonnées Exercise 8: Filtrage des requêtes Exercise 9: Filtres de métadonnées multiples Exercise 10: Mise à jour et suppression de vecteurs Exercise 11: Mise à jour des valeurs vectorielles Exercise 12: Mise à jour des métadonnées vectorielles Exercise 13: Suppression de vecteurs

Dans ce chapitre, les apprenants approfondissent leurs connaissances sur l'optimisation des performances de l'index Pinecone, l'utilisation des espaces de noms multi-locataires pour réduire les coûts, la création de moteurs de recherche sémantique et la création de systèmes de réponse aux questions enrichis par la récupération à l'aide de Pinecone et de l'API OpenAI. Grâce à ces cours, les apprenants acquièrent des compétences pratiques en matière d'optimisation des performances, de recherche sémantique et de réponse à des questions enrichie par la recherche, ce qui leur permet d'utiliser efficacement Pinecone dans des applications d'IA concrètes.

Exercise 1: Regroupement des mises à jour Exercise 2: Définition d'une fonction pour le découpage en morceaux Exercise 3: Regroupement des mises à jour par lots Exercise 4: Regroupement des mises à jour en parallèle Exercise 5: Multilocation et espaces de noms Exercise 6: Espaces de noms Exercise 7: Interrogation des espaces de noms Exercise 8: Recherche sémantique avec Pinecone Exercise 9: Création et configuration d'un index Pinecone Exercise 10: Upserting de vecteurs pour la recherche sémantique

Exercice actuel

Exercise 11: Interrogation de vecteurs pour la recherche sémantique Exercise 12: Chatbot RAG avec Pinecone et OpenAI Exercise 13: Mise à jour des transcriptions YouTube Exercise 14: Création d'une fonction de recherche Exercise 15: Fonction de réponse aux questions RAG Exercise 16: Félicitations !