1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में LLMs का परिचय

Connected

अभ्यास

टोकनाइज़ेशन को मैप करना

अब आप टोकनाइज़ेशन पर अधिक नियंत्रण आज़माना चाहते हैं और डेटा को पंक्तियों या बैचों में टोकनाइज़ करने की कोशिश करेंगे। इससे आपको एक DataSet ऑब्जेक्ट भी मिलेगा, जो प्रशिक्षण के लिए आवश्यक है.

tokenizer आपके लिए लोड कर दिया गया है और डेटा train_data और test_data के रूप में उपलब्ध है.

निर्देश 1/2

undefined XP
  • 1
    • tokenize_function को पूरा करें ताकि वह sequence truncation के साथ टोकनाइज़ किए गए टेन्सर रिटर्न करे, और train_data को बैच में टोकनाइज़ करें.
  • 2
    • tokenize_function को train_data पर अप्लाई करें और पंक्ति-दर-पंक्ति टोकनाइज़ करें.