1. Learn
  2. /
  3. कोर्स
  4. /
  5. OpenAI API के साथ Embeddings परिचय

Connected

अभ्यास

tiktoken के साथ embedding लागत का अनुमान

अब जब हमने Netflix फिल्मों और TV शोज़ को स्टोर करने के लिए एक डेटाबेस और कलेक्शन बना लिया है, तो हम डेटा को एम्बेड करना शुरू कर सकते हैं.

किसी बड़े डेटासेट को एम्बेड करने से पहले, लागत का अनुमान लगाना ज़रूरी है ताकि आप किसी बजट सीमा से ऊपर न जाएँ. क्योंकि OpenAI मॉडल्स की कीमत इनपुट किए गए टोकन्स की संख्या के आधार पर होती है, इसलिए हम OpenAI की tiktoken लाइब्रेरी का उपयोग करके टोकन्स की संख्या गिनेंगे और उन्हें डॉलर लागत में बदलेंगे.

आपको documents दिया गया है, जो एम्बेड किए जाने वाले सभी डेटा की एक सूची है. आप इस सूची पर इटररेट करेंगे, प्रत्येक डॉक्युमेंट को एन्कोड करेंगे, और टोकन्स की कुल संख्या गिनेंगे. अंत में, आप मॉडल की प्राइसिंग का उपयोग करके इसे लागत में बदलेंगे.

निर्देश

100 XP
  • text-embedding-3-small मॉडल के लिए एन्कोडर लोड करें.
  • documents के प्रत्येक टेक्स्ट को एन्कोड करें, और परिणामों का योग लेकर डेटासेट में टोकन्स की कुल संख्या total_tokens निकालें.
  • टोकन्स की कुल संख्या और उनकी लागत को, आपके लिए परिभाषित मॉडल के cost_per_1k_tokens का उपयोग करके, प्रिंट करें.