1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में Machine Learning के लिए Preprocessing

Connected

अभ्यास

Stratified sampling

अब आप जानते हैं कि volunteer डेटासेट के category_desc कॉलम में क्लास लेबल्स का वितरण असमान है। यदि आप category_desc की भविष्यवाणी करने के लिए कोई मॉडल ट्रेन करना चाहें, तो आपको यह सुनिश्चित करना होगा कि मॉडल ऐसे डेटा सैंपल पर ट्रेन हो जो पूरे डेटासेट का प्रतिनिधि हो। Stratified sampling इसे हासिल करने का एक तरीका है!

निर्देश

100 XP
  • सभी कॉलम्स (सिवाय category_desc) से फीचर्स का DataFrame X बनाइए।
  • लेबल्स का DataFrame y category_desc कॉलम से बनाइए।
  • X और y को प्रशिक्षण और टेस्ट सेट में बाँटिए, यह सुनिश्चित करते हुए कि दोनों सेटों में लेबल्स का क्लास डिस्ट्रीब्यूशन समान रहे।
  • .value_counts() का उपयोग करके y_train में लेबल्स और उनकी काउंट्स प्रिंट कीजिए।