1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Cơ sở dữ liệu vector cho Embeddings với Pinecone

Connected

Bài tập

Upsert vector cho tìm kiếm ngữ nghĩa

Đến lúc nhúng (embed) một số dữ liệu văn bản và upsert các vector cùng metadata vào chỉ mục 'pinecone-datacamp'! Bạn được cung cấp một tập dữ liệu tên là squad_dataset.csv, và một mẫu gồm 200 dòng đã được nạp vào DataFrame df.

Trong bài này, để tương tác với OpenAI API và dùng mô hình embedding của họ, bạn không cần tạo và sử dụng khóa API của riêng mình. Một OpenAI client hợp lệ đã được tạo sẵn cho bạn và gán vào biến client.

Nhiệm vụ của bạn là tạo embedding cho văn bản bằng OpenAI API và upsert các embedding cùng metadata vào chỉ mục Pinecone trong namespace squad_dataset.

Hướng dẫn

100 XP
  • Khởi tạo Pinecone client với API key của bạn (OpenAI client đã có sẵn dưới tên client).
  • Trích xuất metadata 'id', 'text', và 'title' từ mỗi row trong batch.
  • Mã hóa texts bằng 'text-embedding-3-small' của OpenAI với số chiều 1536.
  • Upsert các vector và metadata vào namespace có tên 'squad_dataset'.