Stratified sampling

अब आप जानते हैं कि volunteer डेटासेट के category_desc कॉलम में क्लास लेबल्स का वितरण असमान है। यदि आप category_desc की भविष्यवाणी करने के लिए कोई मॉडल ट्रेन करना चाहें, तो आपको यह सुनिश्चित करना होगा कि मॉडल ऐसे डेटा सैंपल पर ट्रेन हो जो पूरे डेटासेट का प्रतिनिधि हो। Stratified sampling इसे हासिल करने का एक तरीका है!

सभी कॉलम्स (सिवाय category_desc) से फीचर्स का DataFrame X बनाइए।
लेबल्स का DataFrame y category_desc कॉलम से बनाइए।
X और y को प्रशिक्षण और टेस्ट सेट में बाँटिए, यह सुनिश्चित करते हुए कि दोनों सेटों में लेबल्स का क्लास डिस्ट्रीब्यूशन समान रहे।
.value_counts() का उपयोग करके y_train में लेबल्स और उनकी काउंट्स प्रिंट कीजिए।

अभ्यास

Stratified sampling

निर्देश

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास