1. 学ぶ
  2. /
  3. コース
  4. /
  5. Wektorowe bazy danych dla osadzeń z Pinecone

Connected

演習

Dodawanie transkryptów z YouTube

W kolejnych ćwiczeniach stworzysz chatbota, który będzie odpowiadał na pytania dotyczące filmów z YouTube – na podstawie transkryptów wideo i dodatkowych metadanych wczytanych do indeksu 'pinecone-datacamp'.

Na początek przygotujesz dane z pliku youtube_rag_data.csv i dodasz wektory wraz ze wszystkimi metadanymi do indeksu 'pinecone-datacamp'. Dane są dostępne w ramce danych youtube_df.

Oto przykładowy transkrypt z ramki danych youtube_df:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

指示

100 XP
  • Zainicjalizuj klienta Pinecone, podając swój klucz API (klient OpenAI jest dostępny jako client).
  • Wyodrębnij metadane 'id', 'text', 'title', 'url' i 'published' z każdego wiersza row.
  • Zakoduj zmienną texts przy użyciu modelu 'text-embedding-3-small' z OpenAI.
  • Dodaj wektory i metadane do przestrzeni nazw 'youtube_rag_dataset'.